[发明专利]基于Coarse2Fine网络的相似问题匹配方法在审
申请号: | 202111188461.2 | 申请日: | 2021-10-12 |
公开(公告)号: | CN113988081A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 王东升;赵翠平;王奇;李佳伟;路曼;钟家国 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 徐澍 |
地址: | 212003 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 coarse2fine 网络 相似 问题 匹配 方法 | ||
本发明公开了一种基于Coarse2Fine网络的相似问题匹配方法,包括以下步骤:步骤1:运用数据集训练得到对应的Coarse2Fine模型;步骤2:运用Coarse2Fine模型中的BM25模型将待处理语句与数据库中的语句进行粗粒度的相似度匹配,得到数条匹配语句;步骤3:在ESIM网络中提取待处理语句、匹配语句的特征值,将待处理语句的特征值逐一与数条匹配语句的特征值计算差异性值;步骤4:在ESIM网络中提取出差异性值小的匹配语句,作为相似语句的输出结果。本发明解决了单使用ESIM网络匹配导致的太多高分项而无法选择出最佳匹配结果的问题。
技术领域
本发明涉及语言匹配技术领域,具体涉及一种基于Coarse2Fine网络的相似问题匹配方法。
背景技术
相似问题匹配技术,对于当前的智能客服、聊天机器人等自然语言处理应用过程中起着关键作用。实际应用过程中,相似问题匹配的核心是建立相似问题匹配模型,常见的技术主要分为两种:其一是基于词嵌入堆叠的句向量表示,通过计算两个句子之间的余弦向量判断相似程度;其二是计算两个句子的语义,通过词嵌入,RNN,LSTM等表征句子的语义,然后用余弦计算距离或者全连接和softmax层计算句子同义和不同义的概率,常用的模型有Google Bert模型和百度的Erine系列,两者的模型都是基于海量数据训练的,分别在LCQMC模型上达到了86.9%和87.9%的准确率。但是由于Bert和Erine模型庞大,训练和运行耗时较长,所以选择了增强型的LSTM网络,即ESIM文本推理网络进行相似问题匹配技术的实现。
发明内容
本发明所要解决的技术问题:给定问句的特征提取,根据特征值进行问句相似度匹配,得到高分匹配项为相似问句。
为达到上述目的,实现本发明的技术解决方案。
一种基于Coarse2Fine网络的相似问题匹配方法,包括以下步骤:
步骤1:上传数据集至数据库中,运用数据集训练得到对应的Coarse2Fine模型;
步骤2:通过Coarse2Fine模型接口的上传接口上传待处理语句,运用Coarse2Fine模型中的BM25模型将待处理语句与数据库中的语句进行粗粒度的相似度匹配,得到数条匹配语句,将待处理语句、数条匹配语句作为Coarse2Fine模型的ESIM网络的输入;
步骤3:在ESIM网络中提取待处理语句、匹配语句的特征值,将待处理语句的特征值逐一与数条匹配语句的特征值计算差异性值;
步骤4:在ESIM网络中提取出差异性值小的匹配语句,作为相似语句的输出结果。
进一步地,所述步骤2中,运用Coarse2Fine模型中的BM25模型将待处理语句与数据库中的语句进行粗粒度的相似度匹配,得到数条匹配语句,具体为:
将待处理语句与数据库中某一语句进行语素分析,再求两个语句之间相关性的得分,得分计算公式如下:
其中,Q表示输入的语句,d表示数据库中的待匹配语句,qi表示问句匹配的基本单位,Wi表示qi的权重;R(qi,d)表示语素qi与d的相关性得分。
最后根据相关性的得分高低,提取出得分高的且满足需求的数条匹配语句。
进一步地,所述步骤3中,在ESIM网络中提取待处理语句、匹配语句的特征值具体方法如下:
ESIM网络使用词嵌入和BiLSTM根据上下文重新学习待处理语句、匹配语句的单词表示,得到待处理语句、匹配语句的编码表示,根据注意力权重得到待处理语句、匹配语句的加权编码表示,将编码表示和加权编码表示作为特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111188461.2/2.html,转载请声明来源钻瓜专利网。