下载此beplayapp体育下载

一种基于统计的中文网页正文抽取方法.pdf


beplayapp体育下载分类:bepaly下载苹果 | 页数:约8页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
1 / 8 下载此beplayapp体育下载
beplayapp体育下载列表 beplayapp体育下载介绍
情 报 学 报 — —
第 卷 第 期 — ,年 月 . . , —
:./.....
一 种 基 于统 计 的 中文 网页 正 文抽 取 方 法
钱 爱 兵
南 京 中 医药 大 学 经 贸 管理 学 院 ,南 京
摘 要 针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先
利用 树计算文本结点 的文本 密度 ,即文本长度与 源码长度之 比,再 利用 贝叶斯判别准 则计算 密度 区分
阈值 ,最后根据 文本 密度与密度区分 阈值 的比较结果 抽取正 文 ,即大于 密度 区分 阈值 的结点 就判定 为正 文文本结
点 ,小 于或 等 于 密 度 区 分 阈 值 的 结 点 则 判 定 为 非 正 文 文 本 结 点 ,将 所 有 判 定 为 正 文 文 本 结 点 的 文 本 连 接 起 来 即 为
要 抽 取 的 网 页正 文 。通 过 使 用 中 文 新 闻 类 网 页 对 该 方 法 的有 效 性 进 行验 证 ,结 果 表 明 :该 方 法 虽 然 简 单 ,但 是 抽 取
准 确 率 极 高 且

一种基于统计的中文网页正文抽取方法 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

相关beplayapp体育下载 更多>>
非法内容举报中心
beplayapp体育下载信息
  • 页数8
  • 收藏数0收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小490 KB
  • 时间2021-10-31