[发明专利]一种基于记忆网络语义融合的长文档检索方法在审
| 申请号: | 202111246473.6 | 申请日: | 2021-10-26 |
| 公开(公告)号: | CN113962228A | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 史树敏;朱乐;黄河燕 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 记忆 网络 语义 融合 文档 检索 方法 | ||
本发明涉及一种基于记忆网络语义融合的长文档检索方法,解决长文档检索中面临的如何在有限的输入中最大可能地保留并融合不同段落的语义表示的技术问题,属于信息检索技术领域。本方法利用预训练语言模型强大的上下文语义建模能力,丰富用户查询向量表示和候选文档向量表示的语义信息,更好地实现语义匹配。本方法使用记忆网络存储文档各分段的向量表示作为记忆单元,针对用户查询,利用注意力机制动态读取记忆单元,融合不同段落间的语义向量,能够有效从长文档中抽取相关信息,摆脱了序列模型的遗忘问题,提升了长文档任务下的用户检索质量。
技术领域
本发明涉及一种基于记忆网络语义融合的长文档检索方法,属于信息检索技术领域。
背景技术
长文档检索是信息检索领域的一项基本任务,其特点是:候选文档文本平均长度较长,不同段落间往往包含多个主题,而用户检索意图可能只与文档中的少数几个段落具有强相关性。在给定用户查询情况下,长文档检索模型需要在大量候选长文档中准确检索到与用户查询最相关的目标文档,多应用在文献检索,法律文书检索等场景下。
传统的搜索引擎(如BM25等),是建立在二元独立模型(BIM,Binary IndependenceModel)的基础上,即,设文本可以由某个单词是否出现在文本中作为特征进行表示,并且文本中不同单词的出现相互独立。在结合分词技术和倒排索引的情况下,能够在大规模语料库中实现快速检索。但是,该方式忽略了现实中文本内不同单词的上下文依赖关系,过分强调用户查询与候选文档在文本上的精确匹配(exact match),缺乏语义上的建模,当用户查询以自然语言形式而非关键词出现时,其检索效果较差。
一些研究人员利用RNN、GRU等序列模型,将长文档不同段落通过其内在的逻辑顺序融合在一起。然而,RNN、GRU等序列模型在序列长度较长时会出现遗忘问题,无法建立长距离依赖。同时,将长文本压缩为固定长度的向量,必然会带来信息上的损失。
近年来,预训练语言模型(Pretrained Language Model)的广泛引用,使语义匹配得到了飞速发展,其强大的上下文建模能力和便捷的可迁移性,帮助检索模型不再局限于精确匹配,能够更好地评估用户查询与候选文档之间的语义相似度。但是,在长文档检索中,候选文档长度远远超出预训练语言模型的输入长度限制,不能一次性将整个文档放入预训练语言模型中。因此,如何在有限的输入中最大可能地保留并融合不同段落的语义表示,是长文档检索面临的主要问题和挑战。
发明内容
本发明的目的是针对现有技术存在的缺陷,为了解决长文档检索中面临的如何在有限的输入中最大可能地保留并融合不同段落的语义表示的技术问题,提高长文档检索任务下用户检索的准确性,创造性地提出了一种基于记忆网络语义融合的长文档检索方法。
本发明的创新点在于:采用一种记忆网络来实现不同段落间语义上的融合的方法,利用记忆网络直接存储不同段落的语义向量表示,通过注意力机制对用户查询进行迭代式的更新,从而有效地从长文本中抽取出与给定用户查询相关的内容,提高了长文档检索任务下用户检索的准确性。
为实现上述目的,本发明采用以下技术方案。
首先,对数据进行预处理,通过召回算法筛选出可能与用户查询相关的文档,从而减小后续阶段模型的计算量。然后,对候选文档进行分段编码,将得到的每一个分段作为记忆网络的一个单元。目的是对候选长文档进行划分。之后,使用预训练语言模型对用户查询进行编码,得到用户查询对应的语义向量表示。基于记忆网络的语义融合阶段,筛选不同存储单元与用户查询相关的部分,并更新拓展用户查询。然后,进行迭代更新,获得准确的用户查询信息。利用多层感知机模型,分别对候选文档中的正、负样本打分,并通过损失函数对模型参数进行训练。当完成模型训练后,对给定用户查询,不再区分正、负样本,对候选文档集合的每个文档进行预测评分,并按分数从高至低进行排序,返回分数排名靠前的文档,作为最终的检索结果。
有益效果
本发明方法,相较现有技术,具有如下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111246473.6/2.html,转载请声明来源钻瓜专利网。





