[发明专利]融合关键词特征和多粒度语义特征的文本相似度计算方法有效

申请号：	202110403916.1	申请日：	2021-04-15
公开（公告）号：	CN113011194B	公开（公告）日：	2022-05-03
发明（设计）人：	刘丹;张成辉;史梦雨	申请（专利权）人：	电子科技大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/289;G06F40/216;G06K9/62
代理公司：	电子科技大学专利中心 51203	代理人：	周刘英
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融合关键词特征粒度语义文本相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种融合关键词特征和多粒度语义特征的文本相似度计算方法，属于自然语言智能处理技术领域。本发明首先基于关键词特征，引入Ksimhash算法，计算当前两个文本的相似度sim₁；其次，利用TFIDF算法，抽取出文本关键词，并利用Word2vec模型得到每个词对应的词向量，利用关键词以及关键词向量信息得到文本对应的词语语义向量，基于词语语义向量，计算当前两个文本的相似度sim₂；然后，利用Doc2vec模型，得到每篇文本对应的篇章语义向量，基于文本语义向量，计算当前两个文本的相似度sim₃；最后，对sim₁、sim₂、sim₃相加求平均，得到最终文本的相似度结果。本发明计算得到的相似度准确度高，可用于文本检索、查重等应用领域。

技术领域

本发明属于自然语言智能处理技术领域，特别涉及一种融合关键词特征和多粒度语义特征的文本相似度计算方法。

背景技术

在比较两篇文章的相似度时，传统的算法有通常以下两类：

一类方案是先将两篇文章分别进行分词，得到一系列词语特征向量，然后计算特征向量之间的距离，如计算它们之间的欧氏距离、海明距离或者夹角余弦等等，从而通过距离的大小来判断两篇文章的相似度。另一类方案是传统hash，考虑为每一个文本通过hash的方式生成一个指纹。第一类方案单纯的使用词特征向量来表征文本内容，容易造成语义的缺失；而第二类方案，其设计目的是为了让整个分布尽可能地均匀，但如果输入内容一旦出现轻微变化，hash值就可能会生很大变化。

Ksimhash作为关键词哈希的一种，其主要思想是降维，将高维的特征向量映射成低维的特征向量，通过两个向量的海明距离来确定文章是否重复或者高度近似。在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置不同字符的个数。即它是将一个字符串变换成另外一个字符串所需要替换的字符个数。

在文本的语义表征层面，Word2vec是常用的词语层向量表示模型。在Word2vec词袋模型训练完成之后，Word2vec模型可映射每个词到一个向量，该向量在一定程度上放映了该词语义特征。在Word2vec模型上引申出的Doc2vec模型，可用于预测一个向量来表示不同的文本或段落语义，该模型的结构克服了Word2vec词袋模型忽略词顺序以及忽略上下文关系的缺点。

发明内容

基于以上技术问题，本发明提供了一种融合关键词特征和多粒度语义特征的文本相似度计算方法，以提升文本间的相似度度量的准确性。

本发明的融合关键词特征和多粒度语义特征的文本相似度计算方法，在获取任意两个文本d_i和d_j的相似度时，执行下列步骤；

步骤1：抽取文本d_i和d_j的关键词；

步骤2：基于Ksimhash算法抽取文本的关键词特征指纹f_i1和f_j1，并计算f_i1和f_j1的海明距离得到文本d_i和d_j的关键词特征相似度sim₁；

步骤3：计算文本d_i和d_j的词语语义相似度sim₂；

步骤4：计算文本d_i和d_j的篇章语义相似度sim₃；

步骤5：综合关键词特征相似度sim₁、词语语义相似度sim₂和篇章语义相似度sim₃，得到文本d_i和d_j的相似度sim。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110403916.1/2.html，转载请声明来源钻瓜专利网。