下载此beplayapp体育下载

基于关键词频度分析的中文网页分类方法.docx


beplayapp体育下载分类:bepaly下载苹果 | 页数:约3页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
1 / 3 下载此beplayapp体育下载
beplayapp体育下载列表 beplayapp体育下载介绍
基于关键词频度分析的中文网页分类方法
专利名称:基于关键词频度分析的中文网页分类方法
技术领域:
本发明是针对中文网页关键词频度分析和基于关键词频度分析 的网页分类方法的研究,主要研究如何通过技术手段对中文网页的内 容进行过滤提取、分、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无 关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响, 有必要进行去除。在提取出网页的标签树以后,我们通过阈值对比的 方法判断出网页的类型,当是
主题型网页的时候我们采用一种基于标 记的正则表达式匹配过滤器来过滤掉网页中的非主题信息。通过几层 的过滤器过滤之后,再提取出网页中的中文文本信息。接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该 词在文本中的权重,得到按权重排名的关键词排序,至此表达该网页 主题的关键词已经分析出来。之后,将所得出的关键词排序结果和我 们的分类主题词库进行匹配,存入一张由该网页关键词和所属类别构 成的数据表中,通过网页模糊分类算法,得到该网页关键词所属类别 的类别排名,取其中前几位,进行隶属率的计算,最终可以得出该网 页的所属类别的模糊匹配结果。基于关键词频度分析的中文网页分类方法能快速掌握网页的关 键信息及其所属类别,从而有利于高效的组织网络上海量信息,具有 广泛的意义和应用价值。主要可以应用在互联网用户兴趣度分析; 搜索引擎目录更新;Web内容挖掘;在线beplayapp体育下载管理;数字图书馆建设。
具体实施方式
一种基于关键词频度分析的中文网页分类方法,是根据所分析出 的中文网页的关键词,'依照中文分类主题词库进行中文网页分类模糊 匹配,其步骤为1)根据用户所输入的网址URL获取中文网页的HTML源码,对所 获取的源码进行过滤和去噪,提取该网页中的中文文本; 目的是实现对各类编码的中文网页进行预处理,去除与主题 无关的噪音信息,包括各种标签、脚本语言代码、广告及图 片链接、设计人员注释、函数声明以及版权信息等冗余的信 息。与主题无关的噪音信息会对网页正文内容的提取的速度 和精度造成很大影响,有必要进行去除。2) 利用分词器对所提取出的中文文本进行分词操作,得到中文 网页的分词后文本;3) 通过关键词频度分析器,对该中文网页分词后文本的主要内 容的关键词进^ff提取,并按照关键词权重对关键词进行排序;4) 初始化数据表该数据表是用于存储文本关键词和关键词所对应的类别,其中初始类别依据中图分类法得到,同时依据 关键词类别设定训练集即事先准备好的已知分类的网页,在 査找具体的网页时将未知分类网页同训练集进行比较计算,得到同训练集中最相似的类别作为需要查找的类别;关键词 按照前一步骤所得出的权重进行排序,录入至数据表;为了 提高效率, 一般取关键词排序的前项100项就够了,大于100 项取100项作为上限值,小于100项则按原关键词数目录入;5) 按照上述数据表中关键词的顺序进入分类主题词库进行查 找;6) 判断分类主题词表中该关键词出现时所在的类别,如果分类 主题词表中存在匹配的关键词和类别,则转入下一步骤7); 如果分类主题词表中不存在该关键词,则转到上一步骤5);7) 将每个关键诃查找的类别结果计入数据表的类别项中;8) 对数据表中的类别信息进行统计,分析出对该中文网页隶属 率最高的不少于3个类别;9) 保存并

基于关键词频度分析的中文网页分类方法 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

相关beplayapp体育下载 更多>>
非法内容举报中心
beplayapp体育下载信息
  • 页数3
  • 收藏数0收藏
  • 顶次数0
  • 上传人421989820
  • 文件大小18 KB
  • 时间2022-06-26