[发明专利]基于自适应特征识别与去噪的非对称文本匹配方法有效
申请号: | 202111192675.7 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113935329B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 郭军军;李岩;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 特征 识别 对称 文本 匹配 方法 | ||
本发明涉及基于自适应特征识别与去噪的非对称文本匹配方法,属于自然语言处理技术领域。本发明对于每个非对称文本对,设计成以上下文感知的方式显式识别鉴别性特征并过滤掉不相关的特征。具体地说,首先设计了一个匹配自适应孪生细胞来自适应地识别鉴别特征,从而为每个文本对导出相应的混合表示。然后,提出了一种局部约束哈希去噪器,通过学习一个有区别的低维二进制码来对冗余长文本进行特征级去噪,从而实现更好的相关性学习。在四个不同下游任务的真实数据集上进行的大量实验表明,与最新的最先进的方法相比,本发明方法获得了巨大的性能增益,为后续的信息检索和答案选择等下游任务提供了支撑。
技术领域
本发明涉及基于自适应特征识别与去噪的非对称文本匹配方法,属于自然语言处理技术领域。
背景技术
文本匹配(TM)是信息检索和自然语言处理领域中一项有价值但具有挑战性的任务。给定一对文档,TM旨在预测它们的语义关系。请注意,在许多信息检索系统,问答系统和对话系统中,高效的匹配算法是不可或缺的资产。在大多数应用场景中,匹配的序列对(例如,查询文档、关键字文档和问答对)通常在信息量上存在很大差异(例如,不对称文本匹配)。例如,匹配对中的两个文档在InsuranceQA数据集中的平均字数为7.15和95.54(即数量级)。短查询和长文档的不对称性使得它成为一项非常重要的任务。非对称文本匹配已成为许多下游任务(如信息检索和自然语言处理)日益增长的需求。这里,不对称意味着匹配所涉及的文档包含不同数量的信息,例如,针对相对较长的文档的简短查询。
早期的解决方案可分为两类,即基于表示的模型和基于交互的模型。前一种解决方案利用递归神经网络(RNN)和长短期记忆网络(LSTM)通过独立处理每个文档来学习文档对的潜在表示,包括DSSM、SNRM和ARC-I。相比之下,后者捕获了它们之间细粒度的交互信号。人们普遍认为,利用交互信号可以极大地提高关联学习能力。示例包括DRMM、KNR和ARC-II。最近,随着像BERT这样的深度预训练语言模型(LMs)的出现,最新的基于LMs的深度关联模型极大地推动了最新技术的发展。具体来说,LMs在大规模语料库上进行预训练,然后通过计算句子对的上下文语义表示将其应用于TM任务。目标是进一步消除文档和查询之间的词汇不匹配。尽管这些努力取得了显著的性能提升,但这些模型的主要缺点是在不对称文本之间忽略了进一步的特征识别和去噪,这可能有助于提高匹配性能。
发明内容
本发明提供了基于自适应特征识别与去噪的非对称文本匹配方法,设计了一个匹配自适应孪生细胞(MAGS)来自适应地识别鉴别特征,从而为每个文本对导出相应的混合表示,还提出了一种局部约束哈希去噪器,通过学习一个有区别的低维二进制码来对冗余长文本进行特征级去噪,从而实现更好的相关性学习。
本发明的技术方案是:基于自适应特征识别与去噪的非对称文本匹配方法,所述方法的具体步骤如下:
Step1、首先将问题-答案匹配数据集和查询-文档匹配数据集进行预处理;
Step2、将Step1预处理过的每个非对称文本对,利用一个基于BERT的上下文编码器对每个非对称文本对进行上下文表示;基于一个自适应匹配孪生细胞来自适应地识别鉴别特征,从而为每个非对称文本对导出相应的混合表示;提出了一种局部约束哈希去噪器,通过学习一个有区别的低维二进制码来对冗余长文本进行特征级去噪;最后利用相似度预测器来获得非对称文本对的匹配分数。
作为本发明的进一步方案,所述Step1中,问题-答案匹配数据集包括insuranceQA、wikiQA和yahooQA,查询-文档匹配数据集采用MS MARCO;预处理包括将文本中的特殊字符利用正则表达式进行匹配删除。
作为本发明的进一步方案,所述Step2中,将Step1预处理过的每个非对称文本对,利用一个基于BERT的上下文编码器对每个非对称文本对进行上下文表示包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192675.7/2.html,转载请声明来源钻瓜专利网。