[发明专利]面向领域整体的关键词集的评价和提取方法无效

专利信息
申请号: 201010259047.1 申请日: 2010-08-20
公开(公告)号: CN102375842A 公开(公告)日: 2012-03-14
发明(设计)人: 姚尹雄;唐新怀 申请(专利权)人: 姚尹雄;唐新怀
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 200030 上海市徐汇区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 领域 整体 关键词 评价 提取 方法
【权利要求书】:

1.一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下:

1)打开一批领域文集;

2)初始化词网:对领域文集预处理,将过滤后的实词作为词网的节点;

3)通过兴趣度创建词网的有向边;

4)用ranking算法计算节点的权重;

5)通过搜索引擎来调整节点对应的实词的词权;

6)统计实词的词权的排名;

7)选择关键词:将排名最高的N个词作为领域关键词集。

2.按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤3)中所述的通过兴趣度创建词网有向边的方法,其步骤如下:

(1)对一篇文本中共同出现的词a和词b,用置信度Confidence来度量文本中词a出现后词b出现的可信程度,置信度计算公式如下:

Confidence(Ta,Tb)=P(Ta,Tb)P(Ta)=|{D|TaDTbD}||{D|TaD}|]]>

其中,Ta和Tb表示词a和词b,P(Ta,Tb)表示词a和词b同时出现在领域文集D中的概率;P(Ta)表示词a出现在领域文集中的概率;

(2)用相似度cosine来度量词a与词b的相关程度,相似度计算公式如下:

cosine(Ta,Tb)==|{D|TaDTbD}||{D|TaD}|·|{D|TbD}|]]>

其中,Ta和Tb表示词a和词b,D表示领域文集;

(3)用兴趣度Interestingness综合衡量词a对词b的关联性,兴趣度计算公式如下:

Interestingness(Ta,Tb)=Confidence(Ta,Tb)·cos ine(Ta,Tb)

(4)若词a和词b共同出现次数高于最小共现次数,并且词a对词b的兴趣度也高于最小兴趣度阈值,则建立词a对应节点到词b对应节点的一条有向边,用计算的兴趣度作为该边的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚尹雄;唐新怀,未经姚尹雄;唐新怀许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010259047.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top