[发明专利]基于新词比例进行数据处理的方法、装置和设备在审
申请号: | 202210376489.7 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114861662A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 翟飞飞 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/08 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新词 比例 进行 数据处理 方法 装置 设备 | ||
1.一种基于新词比例进行数据处理的方法,其特征在于,包括:
S1:通过构建队列系统对全部无标签数据进行处理得到队列数据;
S2:对所得到的队列数据进行新词比例分析;
S3:按照各队列数据的新词比例对模型标注数据进行质量评估;以及
S4:选取队列数据中质量最高的一组队列数据加入训练集进行数据扩充。
2.根据权利要求1所述的基于新词比例进行数据处理的方法,其特征在于:所述无标签数据为中文电子病历中的无标签数据。
3.根据权利要求2所述的基于新词比例进行数据处理的方法,其特征在于:所述步骤S1中通过如下步骤得到队列数据:
S11:通过训练集和开发集进行模型训练,选择在开发集上表现最优的模型作为标签模型,对所有无标注数据进行标注,获得标注数据,并以该标注数据为标准答案;
S12:根据模型训练过程中模型值的增长趋势选取n个单轮训练所得模型,分别使用单轮训练所得模型对所有无标注数据进行重复标注;以及
S13:使用每个单轮次模型与标签模型的标准答案进行比较,将标注相同的数据样本与标注相异的数据样本间隔放置,对于当前队列序号为n的数据,将前者升至队列n+1,将后者降至队列n-1,最终获取n+1个数据队列。
4.根据权利要求3所述的基于新词比例进行数据处理的方法,其特征在于:所述步骤S2中新词比例根据下式计算:
新词比例=1-[(模型所标注实体在训练集实体词典中的实体数目)/(伪数据中所标注出的所有实体数目)]×100%。
5.根据权利要求4所述的基于新词比例进行数据处理的方法,其特征在于:所述步骤S3中,模型标注数据中新词比例越低的队列数据的质量越高。
6.根据权利要求1-4之一所述的基于新词比例进行数据处理的方法,其特征在于,所述步骤S4所获得的训练集用于下一轮的模型训练。
7.一种数据处理装置,其特征在于,包括:
队列数据处理模块,所述队列数据处理模块通过构建队列系统对全部无标签数据进行处理得到队列数据;
新词比例分析模块,所述新词比例分析模块对所得到的队列数据进行新词比例分析;
质量评估模块,所述质量评估模块按照各队列数据的新词比例对模型标注数据进行质量评估;以及
数据扩充模块,所述数据扩充模块选取队列数据中质量最高的一组队列数据加入训练集进行数据扩充。
8.根据权利要求7所述的数据处理装置,其特征在于:所述队列数据处理模块通过如下步骤得到队列数据:
S11:通过训练集和开发集训练进行模型训练,选择在开发集上表现最优的模型作为标签模型,对所有无标注数据进行标注,并假设该标注为标准答案;
S12:根据模型训练过程中模型值的增长趋势选取n个单轮训练所得模型,分别使用单轮训练所得模型对所有无标注数据进行重复标注;以及
S13:使用每个单轮次模型与最优模型的标注结果进行比较,将标注相同的数据样本与标注相异的数据样本间隔放置,对于当前队列序号为n的数据,将前者升至队列n+1,将后者降至队列n-1,最终获取n+1个数据队列。
9.一种可读存储介质,其特征在于,所述可读存储介质存储计算机程序,所述计算机程序用于被处理器执行权利要求1-4之一所述的基于新词比例进行数据处理的方法。
10.一种电子设备,其特征在于,包括处理器以及可读存储介质,所述可读存储介质存储执行指令,所述处理器执行所述可读存储介质中的执行指令,使所述处理器执行权利要求1-4之一所述的基于新词比例进行数据处理的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210376489.7/1.html,转载请声明来源钻瓜专利网。