[发明专利]基于双塔结构模型的文本匹配方法及装置在审
申请号: | 202110340167.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113283245A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 徐帆江;钟方洁;朱博;赵军锁 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 模型 文本 匹配 方法 装置 | ||
本发明公开了一种基于双塔结构模型的文本匹配方法及装置,将待匹配文件与匹配文件输入改进后的双塔结构模型,得到匹配结果;其中改进后的双塔结构模型包括两个独立的语言模型,用以得到待匹配文件语义向量与匹配文本语义向量;两个CNN层,用以计算待匹配文件语义向量与匹配文本语义向量的相似度;根据相似性得到匹配结果。本发明利用语言模型,尤其是BERT算法在复杂语义处理上的优越性,在传统的双塔结构模型上改进,设计了适用于复杂语义文本的文本匹配方法,从而为信息检索、搜索引擎、客服机器人等众多综合下游任务提供准确的文本匹配结果。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于双塔结构模型的文本匹配方法及装置。
背景技术
文本匹配是使用自然语言处理模型预测两份文本的语义相关性,可以应用于信息检索、问答系统、对话系统等技术领域,具有广泛的应用价值。近年来,人工智能与深度学习技术的兴起正在快速改变人类日常工作生活的固有习惯,基于深度学习的文本匹配方法也开始在文本匹配领域发挥其优势特长,具体来说,文本匹配有两种深度学习解决方案,一种是对目标文本与源文本的向量表示计算余弦相似度,另一种是融合目标文本与源文本的向量表示后,使用多层神经网络进行处理,将文本匹配变成分类问题来解决。双塔结构模型是第一种方法。
因为双塔结构模型的简便性,是使用深度学习方法解决文本匹配的主流方式。现有的双结构模型总体如图1,分为三个步骤:
Query与Title为文本匹配任务的两个输入,然后分别进入输入层,再分别接一个表示层进行特征提取,表示层输出特征提取后的特征向量,最后计算两个向量的相似度得到匹配得分。
输入层主要的作用就是把文本映射到低维向量空间转化成向量提供给深度学习网络,针对英文文本,一般使用n-gram方法,传统双塔结构模型一般使用3-gram方法;针对中文文本,因为中文的输入层处理方式与英文有很大不同,会在分词阶段引入误差,所以传统双塔结构模型采用字向量作为输入,向量空间约为1.5万维。
表示层为特征提取过程,使用卷积神经网络或者循环神经网络等特征提取模型输出特征向量。传统双塔模型使用两层300维度的隐藏层,最后统一输出128维度的向量。
匹配层计算Query和Title的语义相似性,使用两个语义向量(128维)的余弦距离来表示。最后根据匹配得分,判断Query与Title的语义相似性。
但是,传统的双塔结构模型在表示层中没有做到关注语序和上下文信息。然而,不考虑语序存在严重问题,因为语言作为连续性信息,其词语的前后顺序会显著影响语义,进而影响文本匹配的准确度。同时,没有考虑上下文信息,也会影响文本的整体语义理解,故而现有的文本匹配技术在使用中,尤其是针对复杂语义文本时,因为关注上下文信息与语序信息不足,文本匹配的效果不佳。
此外,中国专利申请CN110287494A公开了一种基于深度学习BERT算法的短文本相似匹配的方法,但该申请需对待匹配短文本进行分词处理,导致英文分词易存在冲突,中文的分词准确率不高,而且有时带来的偏差,对后续训练可能会产生影响。
发明内容
本发明目的是针对现有技术的缺陷,利用预处理语言模型,设计了一种基于双塔结构模型的文本匹配方法及装置,将现有双塔结构模型的输入层与表示层替换为预处理语言模型,实现效果更好的文本匹配技术。
为达到上述目的,本发明的技术方案包括:
一种基于双塔结构模型的文本匹配方法,其步骤包括:
1)将训练集中的一组待匹配文件与匹配文件,分别输入两个独立的预处理语言模型,得到待匹配文件语义向量与匹配文本语义向量;
2)将待匹配文件语义向量与匹配文本语义向量输入第一CNN层,进行降维,并利用第二CNN层,计算降维后的待匹配文件语义向量与匹配文本语义向量的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340167.2/2.html,转载请声明来源钻瓜专利网。