[发明专利]句子相似度计算方法及装置有效
申请号: | 201510502241.0 | 申请日: | 2015-08-14 |
公开(公告)号: | CN105095188B | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 刘佳 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 张一军,姜劲 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 相似 计算方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种句子相似度计算方法及装置。
背景技术
句子相似度计算是自然语言处理的一项重要研究内容,近年来在信息检索、机器翻译、问答系统、自动文摘等应用领域中的作用越来越重要。
传统方法多通过余弦相似性(cosine similiarity)来衡量两个句子的相似程度。具体过程为:先将需要比较相似度的两个句子分别转换为句向量表示,然后计算两个句向量的夹角的余弦值,。计算结果数值是0到1之间,数值越大说明两个句子越相似。更多详情可以参考维基百科https://en.wikipedia.org/wiki/Cosine_similarity。该方法简便易行,但是不够准确。
例如:需要比较“是高清吧”和“这是高清的吗”这两个句子的相似度。切词后的两个句子分别是“是/高清/吧”和“这是/高清/的/吗”。假设词的权重值都是1,各词对应的向量维度下标为:是->维度下标1,高清->维度下标2,吧->维度下标3,这是->维度下标4,的->维度下标5,吗->维度下标6,则两个句子分别对应的句向量是[1,1,1,0,0,0]和[0,1,0,1,1,1]。计算这两个句向量的夹角的余弦值:
上述方法计算出来的余弦值很小、句子相似度不高,然而人工判断两个句子实际上非常相似,由此可见上述方法存在准确度低的缺陷。
发明内容
有鉴于此,本发明旨在克服现有技术的准确度低的缺陷,提供一种准确度高的句子相似度计算方法及装置。
为实现上述目的,根据本发明的一个方面,提供了一种句子相似度计算方法,包括:步骤S1:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;步骤S2:根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G总,其中,G总≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G总数值越大;步骤S3:根据公式计算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量。
可选地,所述步骤S2包括:
步骤S21:将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及所述匹配孤存词对的相似度贡献值G;
步骤S22:将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G总。
可选地,所述为步骤S21包括:步骤S211:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;步骤S212:根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];步骤S213:判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;步骤S214:判断所述并集集合是否为空集,如果否,跳至步骤S211。
可选地,所述词权重采用词频-逆文档频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510502241.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一键式策略编程的方法及装置
- 下一篇:一种合同文档的自动生成方法和装置