[发明专利]一种基于粗细粒度融合的句子相似度计算方法在审
申请号: | 202110259846.7 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113033181A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 黄兴哲;高亚 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粗细 粒度 融合 句子 相似 计算方法 | ||
本发明公开了一种基于粗细粒度融合的句子相似度计算方法,属于自然语言处理领域。针对现有方法对句子特征粒度提取不精确不具体从而导致计算精度较低的问题。本发明基于粗粒度计算和细粒度计算的结果进行融合来衡量句子对之间的语义相似度。模型中在计算粗粒度是分别考虑了句子的主语,谓语和宾语。在计算细粒度相似度时分别考虑了语义,语法和依赖关系。本发明在微软释义语料库上做了大量的实验验证了该方法的有效性,可用于提升句子相似度计算模型的安全性。
技术领域
本发明属于一种算法程序,涉及到网络社交文本数据的处理,主要是句子语义相似度的计算。
背景技术
近年来,随着网络和物联网技术的发展,许多社交软件以及物理设备通过各种技术接入互联网。人们手持智能手机、平板电脑等物理终端,在社交平台上发表自己的观点,表达着自己的心情,分享自己的经验。在这些应用程序的运行过程中,各种类型的数据,特别是社交数据,不断地积累。这些数据中蕴含着大量的价值,包括商业信息,购物倾向等。然而,这些数据大多以半结构化的形式存在,比如文本,句子。通过对这些半结构化的数据进行恰当的分析处理来实现对商业信息的挖掘是一项十分有意义的工作。
研究者们根据句子的特征从语义,语法,语序等各方面对句子相似度进行了分析。在2008年,IslamAminul和Inkpen Diana提出了一种基于语义的句子相似度度量算法,主要研究计算两个句子或两个短文本片段之间的相似度,并将其应用于文本知识表示和知识发现中。从句法的角度来看,也有大量关于句子相似度计算的文献。Zhang提出了一种基于语义依存关系分析的句子相似度计算方法,该方法利用语义层次和依存句法层次来度量句子相似度,取得了满意的实验结果。Morovoza等人提出了一种基于人工构建词汇-句法模式的相似度度量方法,并在五个基本真值数据集和语义关系提取任务上进行了评估,在不需要语义资源的情况下取得了令人满意的效果。从句子层次的角度研究句子相似度计算的文献也有很多。Li等人提出了一种基于知识语料库和基于词序相结合的句子相似度计算方法。该算法利用WordNet和Brown语料库计算语义相似度,利用词的相似度提高句子相似度的计算精度。
基于先前的研究结论,我们提出了一种粗细粒度融合的句子相似度计算方法,将句子分词并进行词性标注之后根据句子成分首先进行粗粒度的相似度计算,在粗粒度计算的基础上考虑句子的语法依赖进行细粒度的相似度计算。最后,将粗粒度和细粒度的计算结果进行结合给出最终的语义评估结果。
发明内容
本发明的目的是解决句子相似度计算模型中对句子特征粒度的提取难以把握从而导致语义评估结果不精确的问题。
为了解决以上问题提出了基于粗细粒度融合的句子相似度计算模型。其主要技术方案如下:
S1.将句子对进行分词后,根据分词和句子成分标注的结果对句子相似度进行粗粒度的计算,给出相似度的最小值和最大值区间;
S2.在细粒度计算过程中,分别从三元组依赖关系提取,语义相似度计算和句法相似度计算三方面精细考虑句子特征;
S3.将粗粒度计算得分和细粒度计算得分相融合,给出最终的相似度计算得分。
句子对的语义与句子中句子成分密切相关,在粗粒度计算过程中,将句子使用Stanford句法解析器对句子进行分词和成分标注。每个句子可能包含一个或多个主语,谓语动词和宾语。只要任何一对主语相同的,或者他们的相似性值大于预定义的阈值,就认为句子对的主语是相同的,否则就是不同的。宾语和谓语也采用同样的判断方式。在这一步中,根据主语、谓语和宾语是否相同来确定每个句子对的句型类型。最后,在得出句子对的主语,谓语和宾语是否相同后根据预先给定的相似度区间字典给出该句子对的粗粒度计算结果。其中,相似度区间字典是根据专家经验规定的。
在细粒度计算过程中,分别从三元组依赖关系提取,语义相似度计算和句法相似度计算三方面精细考虑句子特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110259846.7/2.html,转载请声明来源钻瓜专利网。