[发明专利]多特征融合的文本相似性度量系统在审
申请号: | 201510072955.2 | 申请日: | 2015-02-11 |
公开(公告)号: | CN104699763A | 公开(公告)日: | 2015-06-10 |
发明(设计)人: | 马博;李晓;蒋同海;周喜;王磊;杨雅婷;赵凡 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 乌鲁木齐中科新兴专利事务所 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。 | ||
搜索关键词: | 特征 融合 文本 相似性 度量 系统 | ||
【主权项】:
一种基于多特征融合的文本相似性度量系统,其特征在于该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,具体操作按下列步骤进行:a.训练文本预处理模块:对训练文本进行预处理,分词,去停用词,去标点符号;b.词向量模型训练模块:获取文本内词间语义特征,使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度,获取词汇间的语义关联;c.基于词频的相似性度量模块:使用基于词频的方法,计算两个文本间的相似程度;首先获取两个输入文本的词汇并计算词频,存储到向量中,然后度量两个向量的余弦相似度,两个向量之间的余弦相似度越高,则表示两个词汇的上下文越近似,也就表示两个词汇在语义上的相似程度越高;d.基于词向量的语义相似性度量模块:使用步骤b模块训练好的词向量模型,度量两个文本间的相似性;其中包括首先对两个文本中的词汇进行基于对齐的消歧操作,具体是根据词向量计算得到的相似性,将两个文本间相似性最高的词作为词对保存,然后计算两个文本间所有词对间的语义相似性,并进行汇总;e.基于维基百科标签的相似性度量模块:使用维基百科标签作为中间媒介,计算两个文本所对应的词向量的相似性;首先计算所有维基百科标签与输入文本的相似性,并从结果中选取相似性最高的一个子集,然后直接计算两个输入文件所对应的维基百科标签集之间的相似性,从而获取相似性结果;f.融合词频特征、词向量特征和维基百科标签特征的相似性度量模块:为三种融合词频特征、词向量特征和维基百科标签特征分配权重,并将三种相似性度量结果汇总,得到两个输入文本的最终相似性结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所;,未经中国科学院新疆理化技术研究所;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510072955.2/,转载请声明来源钻瓜专利网。