[发明专利]用于训练语义特征向量生成模型和语义搜索的方法和装置在审
申请号: | 202310476189.0 | 申请日: | 2023-04-27 |
公开(公告)号: | CN116561253A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 单虹毓;冯媛媛;卢宏亮;张祺深 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06N3/09 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 语义 特征向量 生成 模型 搜索 方法 装置 | ||
本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在该用于训练语义特征向量生成模型的方法中,对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据第一部分文本集和所述第二部分文本集确定训练样本集,其中,训练样本集包括正样本对和负样本对,正样本对由来自于原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
技术领域
本说明书实施例通常涉及自然语言处理(Natural Language Processing,NLP)技术领域,尤其涉及用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。
背景技术
随着人工智能技术的飞速发展,自然语言处理技术逐渐取得越来越广泛的应用。例如在语义搜索领域,为了实现在大量文本中找到与输入的文本语义相近的文本,通常需要借助于各种文本向量化方法,将整个文本转化为语义特征向量的形式,再通过向量之间的相似度计算来确定文本之间的相似度。现有的文本向量化方法中,通常采用诸如优化预训练或微调(fine-tuning)方式以期望提高语义表征的准确性。但由于现有方式主要针对通用文本表征方法,因而在针对特定需求的文本语义模糊匹配场景下的匹配效果不理想。虽然对比学习(Contrastive Learning)为提高文本语义特征向量的表征效果提供了可能,但如何选取对比学习所需要的正负样本则会直接影响整个方法的效果。
发明内容
鉴于上述,本说明书实施例提供了一种用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。利用该方法、装置,可以实现提高文本的语义特征向量的表征能力,进而有助于更准确地确定语义相似度,尤其有助于针对特定需求的文本语义模糊匹配场景的语义搜索方法的召回率的有效提升。
根据本说明书的实施例的一个方面,提供一种用于训练语义特征向量生成模型的方法,包括:对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
根据本说明书的实施例的另一个方面,提供一种语义相似度确定方法,包括:将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
根据本说明书的实施例的又一个方面,提供一种语义搜索方法,包括:接收用户提供的查询文本;根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及将所述语义搜索结果提供给所述用户。
根据本说明书的实施例的又一个方面,提供一种用于训练语义搜索的语义特征向量生成模型的装置,包括:文本提取单元,被配置为对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;样本确定单元,被配置为根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及训练单元,被配置为根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310476189.0/2.html,转载请声明来源钻瓜专利网。