[发明专利]一种正负样本对构造方法、装置、计算机设备及存储介质在审

申请号：	202110773336.1	申请日：	2021-07-08
公开（公告）号：	CN113505601A	公开（公告）日：	2021-10-15
发明（设计）人：	孙超;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F16/33;G06K9/62
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种正负样本构造方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于自然语言处理技术领域，涉及一种正负样本对构造方法、装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，用户的目标正负样本对可存储于区块链中。本申请利用预训练模型的隐含层中自带的随机失活功能作为构造样本对的增广方式，由于隐含层的增广方式是将部分权重或输出随机归零，从而有效解决传统的转译、删除、插入、调换等增广方式容易引入负面噪声的问题，使得构造得到的样本对仍然保留有原始待增广文本的语义特征，其相似的样本分布十分接近并且样本的分布比较均匀，同时，为下游任务提供更加优质的句向量。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种正负样本对构造方法、装置、计算机设备及存储介质。

背景技术

在自然语言处理领域中，学习到一种通用的句向量表示方法是一项基础但十分重要的任务。一方面，优秀的句向量表示方法可以表征每个句子的语义。另一方面，提取到重要语义特征的句向量可以更好的为下游任务，如文本分类、文本生成、语义相似度计算等，提供训练数据，提升任务性能。在自然语言处理中，句向量转换模型应用十分广泛，其重要性不言而喻。

应用最广泛的获取词向量的方式是利用预训练好的模型CLS或者句子序列维度做Meanpooling得到的句子的特征向量，这些方式会导致模型出现各向异性，也就是说模型训练过程中词向量各维度特征表示不一致，获得的句向量也无法直接比较。

现有一种解决上述词向量各维度特征表示不一致，获得的句向量也无法直接比较的句向量表示方法，即采用对比学习的方式在语义表示空间中拉近相似的语句，推开不相似的语句来实现。

然而，申请人发现传统的采用对比学习的句向量表示方法普遍不智能，由于目前的在句向量表示的对比学习方法中常见的句子增广的方式是转译、删除、插入、调换等，但这些都是离散的操作，难以把控并且容易引入负面噪声，因此模型很难通过对比学习从这些样本中捕捉到语义信息，由此可见，传统的采用对比学习的句向量表示方法存在无法学习样本其真实语义信息的问题。

发明内容

本申请实施例的目的在于提出一种正负样本对构造方法、装置、计算机设备及存储介质，以解决传统的采用对比学习的句向量表示方法存在无法学习样本其真实语义信息的问题。

为了解决上述技术问题，本申请实施例提供一种正负样本对构造方法，采用了如下所述的技术方案：

在进行模型对比学习训练时，接收携带有待训练的编码器模型的样本获取请求；

读取文本数据库，在所述文本数据库中获取待增广文本数据；

根据所述待增广文本数据构造初始正负样本对；

根据所述编码器模型中隐含层的随机失活功能对所述初始正负样本对进行前向传播操作，得到离散均匀的目标正负样本对。

为了解决上述技术问题，本申请实施例还提供一种正负样本对构造装置，采用了如下所述的技术方案：

请求获取模块，用于在进行模型对比学习训练时，接收携带有待训练的编码器模型的样本获取请求；

数据获取模块，用于读取文本数据库，在所述文本数据库中获取待增广文本数据；

初始样本构建模块，用于根据所述待增广文本数据构造初始正负样本对；

目标样本获取模块，用于根据所述编码器模型中隐含层的随机失活功能对所述初始正负样本对进行前向传播操作，得到离散均匀的目标正负样本对。