[发明专利]一种文本挖掘的特征词权重计算方法有效

专利信息
申请号: 201611020416.5 申请日: 2016-11-18
公开(公告)号: CN106372064B 公开(公告)日: 2019-04-19
发明(设计)人: 崔宪坤;李建强;赵申荷 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种文本挖掘的特征权重计算方法,将文本特征词的向量表征为分布式表达的实数值向量;根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。采用本发明的技术方案,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中。
搜索关键词: 一种 文本 挖掘 特征 权重 计算方法
【主权项】:
1.一种文本挖掘的特征权重计算方法,包括:步骤1、将文本特征词的向量表征为分布式表达的实数值向量;步骤2、根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;步骤3、通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;其中,步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下:S(Vi)是分词Vi的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vi,Vj)为通过Word2Vec计算得到的Vi与Vj之间的相似度;步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度;其中,步骤4为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集的权重,并同样在计算中加入两两特征词间的关联度,其公式如下:分词Vim是分词Vi通过Word2Vec计算得到的与分词Vi关联度较高的前n个分词之一,即:{Vi,{Vi1,Vi2,Vi3,...,Vin}},Vim∈{Vi1,Vi2,Vi3,...,Vin};S(Vim)是分词Vim的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vim,Vj)为通过Word2Vec计算得到的Vim与Vj之间的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611020416.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top