[发明专利]用于训练语义特征向量生成模型和语义搜索的方法和装置在审
申请号: | 202310476189.0 | 申请日: | 2023-04-27 |
公开(公告)号: | CN116561253A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 单虹毓;冯媛媛;卢宏亮;张祺深 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06N3/09 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 语义 特征向量 生成 模型 搜索 方法 装置 | ||
1.一种用于训练语义特征向量生成模型的方法,包括:
对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;
根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及
根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
2.如权利要求1所述的方法,其中,所述第一部分文本包括所述原始语料中的文本的标题,所述第二部分文本包括所述原始语料中的文本的关键词。
3.如权利要求2所述的方法,其中,所述语义特征向量生成模型应用于服务搜索,所述原始语料中的文本的标题包括历史服务搜索记录中的服务的名称,所述原始语料中的文本的关键词包括历史服务搜索记录中的服务所涉及的功能的关键词。
4.如权利要求1所述的方法,其中,所述根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型包括:
执行以下训练步骤:
将所述训练样本集的正样本对和负样本对提供给当前语义特征向量生成模型,得到与所述正样本对和所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量;
根据所述正样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第一相似度;
根据所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第二相似度;
根据所述第一相似度和所述第二相似度确定对比学习损失值;以及
在不满足训练结束条件时根据所述对比学习损失值调整所述当前语义特征向量生成模型的参数以及继续执行所述训练步骤。
5.如权利要求1到4中任一所述的方法,其中,所述方法还包括:
根据预先获取的标注文本集对所述语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。
6.如权利要求5所述的方法,其中,所述语义特征向量生成模型在有监督训练过程中采用的损失函数的损失值基于输入的样本文本对中各样本文本所得到的语义特征向量之间的语义相似度与所述样本文本对对应的相似度标签之间的差异得到。
7.一种语义相似度确定方法,包括:
将待查询文本和参考文本分别提供给如权利要求1到6中任一所述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及
根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
8.一种语义搜索方法,包括:
接收用户提供的查询文本;
根据如权利要求7所述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;
基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及
将所述语义搜索结果提供给所述用户。
9.如权利要求8所述的语义搜索方法,其中,所述语义搜索方法应用于服务搜索,所述语义搜索结果包括与所述查询文本相匹配的服务页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310476189.0/1.html,转载请声明来源钻瓜专利网。