[发明专利]训练文本数据的扩增方法、装置及电子设备有效
申请号: | 202210094683.6 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114118068B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 刘志敏;徐亮;李蒙 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F40/237 | 分类号: | G06F40/237;G06K9/62 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 何怀燕 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 文本 数据 扩增 方法 装置 电子设备 | ||
1.一种训练文本数据的扩增方法,其特征在于,包括:
获取任务描述数据、标签描述集合、样例文本集合;
将所述任务描述数据、所述标签描述集合、所述样例文本集合拼接生成任务标签文本集合;
将所述任务标签文本集合输入预训练过的语言模型中生成预训练文本数据,通过多个预训练文本数据生成一组样例文本数据,以及,通过多组样例文本数据生成多个扩增样例文本集合;
通过文本过滤模型对所述多个扩增样例文本集合中的噪声文本数据进行过滤,并根据过滤后的所述多个扩增样例文本集合生成训练文本数据;其中,所述进行过滤包括:去除所述扩增样例文本集合中的多组样例文本数据的初始样本标签,将去除样本标签的多组样例文本数据输入文本过滤模型中生成更新样本标签,当样例文本数据的初始样本标签和更新样本标签不同时,将所述样例文本数据确定为噪声文本数据;
利用所述训练文本数据对机器学习模型进行模型训练。
2.如权利要求1所述的扩增方法,其特征在于,获取任务描述数据、标签描述集合、样例文本集合,包括:
根据用户的设置生成所述任务描述数据和包括多个标签描述数据的所述标签描述集合;
由样例文本数据库中提取多组文本数据以生成所述样例文本集合。
3.如权利要求2所述的扩增方法,其特征在于,将所述任务描述数据、所述标签描述集合、所述样例文本集合拼接生成任务标签文本集合,包括:
提取所述任务描述数据和所述样例文本集合中的所述多组文本数据;
从所述标签描述集合中逐一提取标签描述数据,与所述任务描述数据、所述多组文本数据进行拼接,生成所述任务标签文本集合。
4.如权利要求3所述的扩增方法,其特征在于,从所述标签描述集合中逐一提取标签描述数据,与所述任务描述数据、所述多组文本数据进行拼接,生成所述任务标签文本集合,包括:
按照预设顺序将所述标签描述数据、所述任务描述数据、所述多组文本数据进行拼接以生成所述任务标签文本集合。
5.如权利要求1所述的扩增方法,其特征在于,
将所述任务标签文本集合输入预训练过的语言模型中生成预训练文本数据,包括:逐一由所述任务标签文本集合中提取一组任务标签文本;将所述任务标签文本多次输入预训练过的语言模型中,生成多个预训练文本数据;
通过多组样例文本数据生成多个扩增样例文本集合,包括:通过多组所述任务标签文本对应的多组样例文本数据生成所述扩增样例文本集合。
6.如权利要求1或5所述的扩增方法,其特征在于,通过所述多个预训练文本数据生成一组样例文本数据,还包括:
提取所述任务标签文本中的标签描述数据;
根据所述标签描述数据生成本组样例文本数据的样本标签。
7.如权利要求1所述的扩增方法,其特征在于,所述文本过滤模型还包括:
通过扩增样例文本集合中的带标签的多组样例文本数据对有监督分类模型进行训练以生成所述文本过滤模型。
8.如权利要求1所述的扩增方法,其特征在于,当样例文本数据的初始样本标签和更新样本标签不同时,将所述样例文本数据确定为噪声文本数据,包括:
确定更新样本标签的置信度;
当样例文本数据的初始样本标签和更新样本标签不同,且更新样本标签的置信度大于置信度阈值时,将所述样例文本数据确定为噪声文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210094683.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置