[发明专利]一种面向问答领域含有人名的问句相似度计算方法有效
| 申请号: | 201810433143.X | 申请日: | 2018-05-08 |
| 公开(公告)号: | CN108629019B | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 常亮;时雨;宾辰忠;古天龙;孙彦鹏;孙磊;匡海丽 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/30;G06K9/62;G06F16/332 |
| 代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 问答 领域 含有 人名 问句 相似 计算方法 | ||
本发明公开一种面向问答领域含有人名的问句相似度计算方法,分别计算人名与非人名部分的相似度,并且考虑到句子的结构,从句子的语序以及长短两方面进行句子相似度的计算,最终根据句子语义相似度和结构相似度加权求得整体句子的相似度。解决了通过以往句子相似度算法在计算含有人名的句子时,无法得到符合人为主观判断的问题。本发明提出的方法能够更加精确的计算出含有人名的句子相似度,并可以将其广泛的应用到问答领域。
技术领域
本发明涉及问答技术领域,具体涉及一种面向问答领域含有人名的问句相似度计算方法。
背景技术
问句的相似度计算一直都是人工智能以及自然语言处理领域的基础且重要的研究工作,同时也是研究热点,有着非常广泛的应用,例如问答系统、信息检索系统等。
目前有关中文句子相似度计算的算法大致可以分为以下几类:第一类是基于特征词的方法;第二类是基于句子结构的方法;第三类是基于语义词典的方法。首先第一类方法基于特征词的方法,这种方法指的是在两个待比较的问句中,分别提取出他们的特征词,然后进行特征词的比较,计算他们的相似度,以此相似度结果表示两个问句的相似度。其次第二类方法,基于句法结构的方法,这种方法指的是通过对两个句子的结构分析,从而来计算两个句子的句法结构的相似度。通过比较两个句子的词性序列,当匹配到最优的相同词性序列后,再进行词性和词序相似度的比较,从而反映两个句子的相似度。第三类方法,基于语义词典的方法,这种方法指的是通过问句中词语的相似度来反映两个句子的相似度。在计算词语相似度的时候要依靠大规模的语义词典,比如利用How Net知识库计算两个问句的相似度,需要将两个句子中的所有词语进行两两匹配计算相似度,相似度结果最高的两个词语作为最优匹配对,最后将所有的词语最优匹配对相似度加权平均的结果表示整个句子的语义相似度。
然而在计算含有人物名字的句子相似度时,以上三类方法对于含有人名的问句并不能精确计算,比如对于两个问句“朱仁昌是靖江王府的第几代王爷”和“朱仁晟是靖江王府的第几代王爷”,如果使用之前介绍的三种方法来计算,那么得到的两个句子的相似度都极高。然而,从事实角度出发,“朱仁昌”和“朱仁晟”分别为两个个体,虽然都是靖江王府的王爷,并且名字也较为相似,但实际意义却不尽相同。由此看来,经过以上方法计算的相似度结果极高并不符合人为的主观判断。
发明内容
本发明所要解决的是目前问答领域在计算句子相似度时,无法体现出人名之间的差异性以及人名对整个句子的重要性,会导致问句相似度计算的结果差强人意的问题,提供一种面向问答领域含有人名的问句相似度计算方法,以提高问句相似度计算的准确率。
为解决上述问题,本发明是通过以下技术方案实现的:
一种面向问答领域含有人名的问句相似度计算方法,具体包括步骤如下:
步骤1、计算当前输入问句L与语料库中的每一个问句Sz的句子结构相似度,其具体包括:
步骤1.1、计算句子长度相似度SimLen(L,Sz):
其中,LenL表示输入问句L分词后的词语的个数,表示语料库问句Sz分词后的词语的个数;
步骤1.2、计算句子语序相似度SimOrd(L,Sz):
式中,RevOrd表示相对于输入问句L,相同词语在语料库问句Sz中的逆序数,MaxRevOrd表示相对于输入问句L,相同词语数序列在语料库问句Sz中的最大逆序数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810433143.X/2.html,转载请声明来源钻瓜专利网。





