[发明专利]短文本相似度计算方法及系统在审
申请号: | 201810090296.9 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108334495A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 王慧;汪立东;王博;刘春阳;张旭;王萌;李雄 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。 | ||
搜索关键词: | 短文本 词向量 相似度计算 句子向量 向量集合 集合 相似度 分词 句子 相似度算法 余弦相似度 语义相似度 最大相似度 训练语料 准确率 算法 词语 刻画 | ||
【主权项】:
1.一种短文本相似度计算方法,其特征在于,包括以下步骤:S1、获取训练语料,对训练语料进行分词,利用深度学习word2vec算法对训练语料进行训练,得到训练语料中的每个词的词向量(a1i,a2i,a3i…),然后将每个词向量组合形成词向量集合S;S=((a11,a21,a31…),(a12,a22,a32…),(a13,a23,a33…),…(a1i,a2i,a3i…)…(a1N,a2N,a3N…))S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本分词后的每个词语对应的词向量wordi,并组合形成短文本向量集合sen;sen=(word1,word2,word3,…wordiwordM)S3、采用余弦相似度公式计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到词向量集合中每个词向量的最大相似度值maxi,将每个词向量的最大相似度值maxi组合得到短文本句子向量senVec;senVec=(max1,max2,max3,…maxi…maxN);S4、采用余弦相似度公式计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810090296.9/,转载请声明来源钻瓜专利网。