[发明专利]一种输入中包含错误信息场景下的文档检索方法有效
申请号: | 202310517097.2 | 申请日: | 2023-05-09 |
公开(公告)号: | CN116226357B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 刘军平;龚明康;郭沛然;胡新荣;姚迅;杨捷 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/232;G06F40/247 |
代理公司: | 武汉世跃专利代理事务所(普通合伙) 42273 | 代理人: | 万仲达 |
地址: | 430073 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 输入 包含 错误信息 场景 文档 检索 方法 | ||
本发明公开了一种输入中包含错误信息场景下的文档检索方法,包括:步骤1,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集;步骤2,对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符;步骤3,将数据集中的不包含特殊字符的原始查询文本,不包含特殊字符的文档文本以及插入了特殊字符的包含错误的查询文本输入文档检索网络进行训练,获得文档检索模型;步骤4,使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档。本发明可以有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。
技术领域
本发明涉及自然语言处理领域,并且更具体地,涉及一种输入中包含错误信息场景下的文档检索方法。
背景技术
文档检索技术是指从大量的文档中找出与用户查询相关的文档的技术,它是信息检索的一个重要分支。文档检索技术从最早的布尔模型,到向量空间模型、概率模型、语言模型等经典模型,再到近年来基于深度学习和预训练语言模型的神经排序模型,文档检索技术不断地引入新的理论和方法,提高了检索效果和效率。
文档检索技术可以应用于多种场景,如搜索引擎、问答系统、数据分析、数据管道等。不同场景下可能有不同的需求和挑战,比如数据规模、实时性、多样性、可解释性等。因此,需要根据具体场景选择合适的文档检索方法和策略。
随着互联网数据量和多样性不断增长,以及人工智能领域不断创新,文档检索技术也面临着新的机遇和挑战。在实际应用中,用户的查询可能存在多种形式和含义,文档也可能存在多种类型和质量,如果模型不能适应这些变化,就会导致检索结果不准确或不相关。因此,在设计和评估文档检索模型时,需要考虑其鲁棒性,并采用相应的方法来提高其鲁棒性。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种输入中包含错误信息场景下的文档检索方法,其目的在于解决有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。
为实验上述目的,按照本发明的一个方面,提供了一种输入中包含错误信息场景下的文档检索方法,包括如下步骤:
步骤1:通过拼写错误、顺序替换、停用词删除和同义替换等技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集。
优选的,从构建的初始训练集中提取查询文本,通过拼写错误、顺序替换、停用词删除和同义替换等文本数据处理技术生成新的查询文本,模拟输入中包含错误信息场景下的文本查询。
步骤2:对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符。
优选的,检测文本中单词的长度,得到文本中单词的数量信息;在文本中插入数量的20%的且最至少为1个[MASK]特殊字符。
步骤3:将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即可以用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;
优选的,基于特征编码的文档检索模型的网络结构,其中网络结构可以分为四个部分。
(1)将训练集中的原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后,预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。具体来说,人工设置了一个词汇表包括非ASCII符号在内的256个字符以及添加的一些如[MASK]、[CLS]、[SEP]等特殊标记,词汇表大小为263。首先会对所有单词进行字符级分割,而插入的特殊标记不会进行分割。将单词分割出来的每一个字符转化为一个最大长度为50的one-hot向量,如果字符不在词汇表内就用全零向量表示以保证输入的维度一致,然后将one-hot向量拼接成一个人工设置的维度为16的矩阵,表示为字符嵌入序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310517097.2/2.html,转载请声明来源钻瓜专利网。