[发明专利]一种正负样本对构造方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202110773336.1 申请日: 2021-07-08
公开(公告)号: CN113505601A 公开(公告)日: 2021-10-15
发明(设计)人: 孙超;王健宗 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/33;G06K9/62
代理公司: 深圳市世联合知识产权代理有限公司 44385 代理人: 汪琳琳
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 正负 样本 构造 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请实施例属于自然语言处理技术领域,涉及一种正负样本对构造方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的目标正负样本对可存储于区块链中。本申请利用预训练模型的隐含层中自带的随机失活功能作为构造样本对的增广方式,由于隐含层的增广方式是将部分权重或输出随机归零,从而有效解决传统的转译、删除、插入、调换等增广方式容易引入负面噪声的问题,使得构造得到的样本对仍然保留有原始待增广文本的语义特征,其相似的样本分布十分接近并且样本的分布比较均匀,同时,为下游任务提供更加优质的句向量。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种正负样本对构造方法、装置、计算机设备及存储介质。

背景技术

在自然语言处理领域中,学习到一种通用的句向量表示方法是一项基础但十分重要的任务。一方面,优秀的句向量表示方法可以表征每个句子的语义。另一方面,提取到重要语义特征的句向量可以更好的为下游任务,如文本分类、文本生成、语义相似度计算等,提供训练数据,提升任务性能。在自然语言处理中,句向量转换模型应用十分广泛,其重要性不言而喻。

应用最广泛的获取词向量的方式是利用预训练好的模型CLS或者句子序列维度做Meanpooling得到的句子的特征向量,这些方式会导致模型出现各向异性,也就是说模型训练过程中词向量各维度特征表示不一致,获得的句向量也无法直接比较。

现有一种解决上述词向量各维度特征表示不一致,获得的句向量也无法直接比较的句向量表示方法,即采用对比学习的方式在语义表示空间中拉近相似的语句,推开不相似的语句来实现。

然而,申请人发现传统的采用对比学习的句向量表示方法普遍不智能,由于目前的在句向量表示的对比学习方法中常见的句子增广的方式是转译、删除、插入、调换等,但这些都是离散的操作,难以把控并且容易引入负面噪声,因此模型很难通过对比学习从这些样本中捕捉到语义信息,由此可见,传统的采用对比学习的句向量表示方法存在无法学习样本其真实语义信息的问题。

发明内容

本申请实施例的目的在于提出一种正负样本对构造方法、装置、计算机设备及存储介质,以解决传统的采用对比学习的句向量表示方法存在无法学习样本其真实语义信息的问题。

为了解决上述技术问题,本申请实施例提供一种正负样本对构造方法,采用了如下所述的技术方案:

在进行模型对比学习训练时,接收携带有待训练的编码器模型的样本获取请求;

读取文本数据库,在所述文本数据库中获取待增广文本数据;

根据所述待增广文本数据构造初始正负样本对;

根据所述编码器模型中隐含层的随机失活功能对所述初始正负样本对进行前向传播操作,得到离散均匀的目标正负样本对。

为了解决上述技术问题,本申请实施例还提供一种正负样本对构造装置,采用了如下所述的技术方案:

请求获取模块,用于在进行模型对比学习训练时,接收携带有待训练的编码器模型的样本获取请求;

数据获取模块,用于读取文本数据库,在所述文本数据库中获取待增广文本数据;

初始样本构建模块,用于根据所述待增广文本数据构造初始正负样本对;

目标样本获取模块,用于根据所述编码器模型中隐含层的随机失活功能对所述初始正负样本对进行前向传播操作,得到离散均匀的目标正负样本对。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的正负样本对构造方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110773336.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top