1 / 57
beplayapp体育下载分类:bepaly下载苹果

基于Nutch的食品安全信息垂直搜索引擎研究.pdf


下载后只包含 1 个 PDF 格式的beplayapp体育下载,没有任何的图纸或源代码,查看文件列表

特别说明:beplayapp体育下载预览什么样,下载就是什么样。

下载所得到的文件列表
基于Nutch的食品安全信息垂直搜索引擎研究.pdf
beplayapp体育下载介绍:
杭州电子科技大学硕士学位论文






基于 Nutch 的食品安全信息垂直搜索
引擎研究






研 究 生:曹 奇 峰
指导教师:胡 维 华 教授



2013 年 11 月
Dissertation Submitted to Hangzhou Dianzi University
for the Degree of Master





The Research of Vertical Search Engine
Based on Nutch for Food safety








Candidate: Qifeng Cao
Supervisor: Prof. Weihua Hu



November,2013
摘 要
互联网信息过载导致人们越来越倚重搜索引擎,面向特定领域或学科的垂直
搜索引擎是搜索技术的细化和拓展,它针对特定用户提供垂直搜索。当前在食品
安全领域,食品安全信息的获取基本靠百度谷歌等通用搜索引擎查询,无法满足
用户对于快速、准确查找信息的需求。针对食品安全主题为用户提供查询的相关
研究还不是很多。本文针对通用搜索引擎不能满足用户对于食品安全信息领域的
问题,研究设计基于食品安全信息主题的垂直搜索引擎。
本文针对食品安全信息主题,做了如下研究和创新:
(1)网页排序算法是搜索引擎好坏的关键,搜索引擎的结果排序算法是从
杂乱无章的海量数据库中把与查询词主题相关的页面按权威度排序,帮助用户快
速找到所需信息。开源搜索引擎 Nutch 只实现了一个基本的综合排序模型,不能
满足专业用户对于特定领域的需求。本文改进了 PageRank 算法并把改进后的算
法加入到 Nutch 的排序模型之中,使其更具主题倾向性。算法的改进包括:根据
出链站点的不同对权值进行差异化分配;加入时间衰减因子降低陈旧网页的评分;
结合页面链接关系和页面内容主题相关性来建立网页排序模型。实验表明改进的
排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作
用。
(2)研究主题爬虫的基本原理和重要技术,提出了一个针对食品安全领域
的爬虫模型。其中的关键技术包括:通过人工专家和搜索引擎相结合的方式选择
初始 URL 种子;通过训练文本进行关键词抽取来构建食品安全信息主题词库;应
用向量空间模型判断主题的相关性。
(3)结合上述的研究,本文设计了一个面向食品安全信息的垂直搜索引擎。
通过主题爬虫和改进的网页排序模型,为用户提供一个快速、准确查找食品安全
信息的搜索引擎。

关键词:搜索引擎,食品安全,相似性,向量空间模型,网页排序算法





I
ABSTRACT
Internet information overload caused people more and more rely on search
engine.For a profess
内容来自beplayapp体育下载www.apt-nc.com转载请标明出处.
相关beplayapp体育下载
    非法内容举报中心
    beplayapp体育下载信息
    • 页数57
    • 收藏数0收藏
    • 顶次数0
    • 上传人陈潇睡不醒
    • 文件大小2.84 MB
    • 时间2021-09-13