[发明专利]面向领域整体的关键词集的评价和提取方法无效
申请号: | 201010259047.1 | 申请日: | 2010-08-20 |
公开(公告)号: | CN102375842A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 姚尹雄;唐新怀 | 申请(专利权)人: | 姚尹雄;唐新怀 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 领域 整体 关键词 评价 提取 方法 | ||
技术领域
本发明涉及一种领域关键词集的提取方法,更具体的是提出构建领域文集的词网,利用基于图结构的ranking算法提取领域关键词集的方法。
背景技术
目前,关键词提取技术的研究主要有基于统计、基于图、基于机器学习的三类方法。用现有的关键词提取技术来提取一个领域的整体关键词,存在不足之处,具体如下:
基于统计的方法,主要通过统计文本中词语的出现规律提取关键词;该方法的缺点是,提取的关键词难以准确概括领域内容。基于图结构的方法,主要考虑文本中词之间的联系,以词为节点、以词间的关系为边、组成一个网络,通过挖掘网络中的特殊节点来发现关键词;该方法的缺点是,关键词提取的精度只能体现在文本较长的文本上。基于机器学习的方法,是通过人工标注的关键词实例训练生成分类器,再用分类器确定新文本的关键词;该方法的缺点是,训练分类器需要大量的人工标注关键词,领域变化时需重定学习规则,在Web环境下难以大规模使用。
领域关键词集,也就是一个领域的整体关键词,应具有概括领域内容和区分于其他领域的特性。目前,以出现次数最多的词作为领域关键词集难以准确反应整个领域的特性。但是由于领域文本难以整体获得,领域关键词集的提取方法并没有得到太多研究。
发明内容
本发明的目的在于针对现有技术的不足,提供一种领域关键词集的提取方法,该方法能提高关键词提取精度,能提高提取结果的领域特性,并能方便应用于提取Web环境下网页文本的领域关键词集。
为了达到上述的目的,本发明构思如下:
定义领域关键词集的概念:领域关键词集是领域主题中最重要的N个词,即权重最大的前N个词。其中,词的权重表示对领域主题的贡献程度。
在提取领域关键词集时,以词为节点、以词的关联规律为边、构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,再利用搜索引擎检验词的普遍性;进而提取出权重最大的前N个词作为领域关键词集。
根据上述的发明构思,本发明采用下述技术方案:
一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下:
1)打开一批领域文集;
2)初始化词网:对领域文集预处理,将过滤后的实词作为词网的节点;
3)通过兴趣度创建词网的有向边;
4)用ranking算法计算节点的权重;
5)通过搜索引擎来调整节点对应的实词的词权;
6)统计实词的词权的排名;
7)选择关键词:将排名最高的N个词作为领域关键词集。
上述步骤3)所述的通过兴趣度创建词网有向边的方法,其步骤如下:
(1)对一篇文本中共同出现的词a和词b,用置信度Confidence来度量文本中词a出现后词b出现的可信程度,置信度计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚尹雄;唐新怀,未经姚尹雄;唐新怀许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010259047.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:AlGaInP发光二极管的制备方法
- 下一篇:计算机重启测试系统及方法