[发明专利]一种语料处理的方法、相关装置及设备在审

申请号：	202110774306.2	申请日：	2021-07-08
公开（公告）号：	CN113821593A	公开（公告）日：	2021-12-21
发明（设计）人：	王明;包恒耀	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30;G06F40/289
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	李杭
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语料处理方法相关装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种语料处理的方法、相关装置及设备，用于使待扩充语料得到充足扩展，从而满足模型训练对语料的数量的需求。本申请实施例方法包括：获取待扩充语料，根据待扩充语料获取K个候选语料，将K个候选语料以及待扩充语料输入至语义识别模型，以得到K个语义识别结果，其中，每个语义识别结果为相似度分值或相似度分类，相似度分值表示候选语料与待扩充语料之间的语义相似程度，相似度分类表示候选语料与待扩充语料之间的语义所属类别，若K个语义识别结果中存在至少一个语义识别结果满足语料提取条件，则将至少一个语义识别结果所对应的候选语料确定为目标语料，以得到属于待扩充语料的至少一个目标语料。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语料处理的方法、相关装置及设备。

背景技术

随着人工智能的普及，越来越多的人工智能技术能够为人们的生活带来便利，如用户通过智能助手输入一些请求语句，智能助手通过对这些请求语句进行分析处理，并将处理结果传递给后续的服务以做出相应的反馈，从而与用户语音完成一次交互流程。

而目前的语义解析平台在处理请求语句的时候，通常是采用意图分类模型来对语句进行解析的，意图分类模型是需要通过一定量的训练语料进行训练得到，但是由于现有的训练语料中只能够提供少量的种子语料，不足以支撑模型的正常训练，或训练出的模型过于拟合训练数据而导致模型泛化效果太差。

发明内容

本申请实施例提供了一种语料处理的方法、相关装置及设备，通过对待扩充语料的语料挖掘，来获取大量的候选语料，并从大量的候选语料中进一步挖掘出与待扩充语料语义相似的目标语料，以使待扩充语料得到充足扩展，从而满足模型训练对语料的数量的需求。

有鉴于此，本申请一方面提供一种语料处理的方法，包括：

获取待扩充语料；

根据待扩充语料获取K个候选语料，其中，每个候选语料与待扩充语料之间的语义相似度大于或等于相似度阈值，K为大于1的整数；

将多个候选语料以及待扩充语料输入至语义识别模型，以得到K个语义识别结果，其中，每个语义识别结果为相似度分值或相似度分类，相似度分值表示候选语料与待扩充语料之间的语义相似程度，相似度分类表示候选语料与待扩充语料之间的语义所属类别；

若K个语义识别结果中存在至少一个语义识别结果满足语料提取条件，则将至少一个语义识别结果所对应的候选语料确定为目标语料，以得到属于待扩充语料的至少一个目标语料。

本申请的另一方面提供一种语料处理的装置，包括：

获取单元，用于获取待扩充语料；

获取单元，还用于根据待扩充语料获取K个候选语料，其中，每个候选语料与待扩充语料之间的语义相似度大于或等于相似度阈值，K为大于1的整数；

处理单元，用于将K个候选语料以及待扩充语料输入至语义识别模型，以得到K个语义识别结果，其中，每个语义识别结果为相似度分值或相似度分类，相似度分值表示候选语料与待扩充语料之间的语义相似程度，相似度分类表示候选语料与待扩充语料之间的语义所属类别；

确定单元，用于若K个语义识别结果中存在至少一个语义识别结果满足语料提取条件，则将至少一个语义识别结果所对应的候选语料确定为目标语料，以得到属于待扩充语料的至少一个目标语料。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取单元，还用于获取语料样本集，其中，语料样本集包括正样本语料以及负样本语料，正样本语料对应于标注标签；

处理单元，还用于对正样本语料进行特征提取，得到正样本语料特征，并对负样本语料进行特征提取，得到负样本语料特征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110774306.2/2.html，转载请声明来源钻瓜专利网。

上一篇：装配系统
下一篇：一种用于检测新型冠状病毒及其变异株的引物、探针组合物及试剂盒

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语料处理的方法、相关装置及设备在审

专利文献下载