下载此beplayapp体育下载

基于查询日志分析的中文网页关键词抽取方法.pdf


beplayapp体育下载分类:IT计算机 | 页数:约8页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
beplayapp体育下载列表 beplayapp体育下载介绍
第卷第期广西师范大学学报自然科学版
33 2 :
年月
20 1 5 6 Journal of Guangxi Normal University:Natural Science Edition 1 5
doi: 6088/j . 1-6 1 5 .
基于查询日志分析的中文网页关键词抽取方法
王晓艳 1 王珍珍 2
,
福建师范大学协和学院福建福州福建师范大学经济学院福建福州
(1 . , 3 50 1 1 7;2. , 3 50 1 08)
摘要:以全文索引为基础的网页搜索引擎检索相关度偏低针对这一问题本文提出了一种基于查询日志
. ,
分析的中文网页关键词抽取方法该方法利用用户对网页与查询词的相关性判断来选择关键词为了量化
. .
用户的相关性判断提出了单位篇幅停留时间逆向点击率排名补偿因子个指标并对其进行综合加权
, 、、 3 , .
在查询串分词同义词识别及多义词消歧关键短语组配方面也做了特殊处理实验结果表明抽取关键词
、、, . :
的准确率较高综合性能也高于和方法该方法能得到较满意的关键词抽取效果
, SVM . .
关键词:查询日志关键词抽取关键短语组配同义词识别多义词消歧
; ; ; ;
中图分类号: 文献标志码: 文章编号:
G3 5 6 .6 ;TP3 9 1 A 100 1-6 600(20 1 5)02-0042-07
引言
0
关键词是beplayapp体育下载主要内容和中心意思的浓缩表示准确抽取关键词将有助于beplayapp体育下载理解及beplayapp体育下载管理搜
, .
索引擎全文检索的相关度让人失望而手工标注关键词也变得不再可行在此背景下利用计算机技术自
, , ,
动抽取关键词变得更为重要目前关键词自动抽取领域非常活跃国内外相继提出了多种抽取方法大致
. , ,
可归纳为三大类统计方法机器学****方法语言学方法
: 、、.
统计方法根据词汇在beplayapp体育下载中的统计特征和描述特征来判断关键词的主题贡献度常用的统计特征包
.
括词频词共现信息[1 ] 树[2] 统计信息[3]等常用的描述特征包括词位置词性
: 、、、PAT 、N-gram ; : 、、
词长词离散度首次出现位置等[4-6] 统计方法简单易行不依赖于语料训练领域通用性强但准确率相
、、. , , ,
对较低抽取效果不太好
, .
机器学****方法将关键词抽取看作关键词和非关键词的二元分类问题国外已建立了一些抽取关键词
.
的实用或实验系统[7] 等[8]提出的方法近年来受到了广泛关注该方法得到了
. LDA , C.
[9]的改进和拓展机器学****方法具有跨语种的优点但抽取准确率取决于训练样本的覆盖度及
Pasquier . ,
标注质量而这正是一个难以有效解决的问题此外该方法还存在领域倾斜及过拟合问题目前围绕
, . , . ,
该类方法展开的研究大多集中在特征项选择方面即构建除词频以外的多重特征[4-6]
“”, .
语言学方法关注beplayapp体育下载内部的语法语义结构更接近人们真实的思维逻辑因此是一类非常有发展前
、, ,
途的

基于查询日志分析的中文网页关键词抽取方法 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

非法内容举报中心
beplayapp体育下载信息