[发明专利]面向领域整体的关键词集的评价和提取方法无效
申请号: | 201010259047.1 | 申请日: | 2010-08-20 |
公开(公告)号: | CN102375842A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 姚尹雄;唐新怀 | 申请(专利权)人: | 姚尹雄;唐新怀 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 领域 整体 关键词 评价 提取 方法 | ||
1.一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下:
1)打开一批领域文集;
2)初始化词网:对领域文集预处理,将过滤后的实词作为词网的节点;
3)通过兴趣度创建词网的有向边;
4)用ranking算法计算节点的权重;
5)通过搜索引擎来调整节点对应的实词的词权;
6)统计实词的词权的排名;
7)选择关键词:将排名最高的N个词作为领域关键词集。
2.按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤3)中所述的通过兴趣度创建词网有向边的方法,其步骤如下:
(1)对一篇文本中共同出现的词a和词b,用置信度Confidence来度量文本中词a出现后词b出现的可信程度,置信度计算公式如下:
其中,Ta和Tb表示词a和词b,P(Ta,Tb)表示词a和词b同时出现在领域文集D中的概率;P(Ta)表示词a出现在领域文集中的概率;
(2)用相似度cosine来度量词a与词b的相关程度,相似度计算公式如下:
其中,Ta和Tb表示词a和词b,D表示领域文集;
(3)用兴趣度Interestingness综合衡量词a对词b的关联性,兴趣度计算公式如下:
Interestingness(Ta,Tb)=Confidence(Ta,Tb)·cos ine(Ta,Tb)
(4)若词a和词b共同出现次数高于最小共现次数,并且词a对词b的兴趣度也高于最小兴趣度阈值,则建立词a对应节点到词b对应节点的一条有向边,用计算的兴趣度作为该边的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚尹雄;唐新怀,未经姚尹雄;唐新怀许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010259047.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:AlGaInP发光二极管的制备方法
- 下一篇:计算机重启测试系统及方法