[发明专利]数据处理方法、装置、计算机设备及存储介质在审
申请号: | 201910432715.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110298541A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 韩磊 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q30/00;G06K9/62 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数据处理方法、装置、计算机设备及存储介质。所述方法包括:获取初始样本数据集合中的样本数据的数量,执行数据采样流程;将待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据;从共性待打标数据中选取第一待打标数据,并复制得到第二待打标数据;对第一待打标数据使用第一打标规则进行数据打标得到第一打标数据,对第二待打标数据使用第二打标规则进行数据打标得到第二打标数据;若第一打标数据中的标注结果和第二打标数据中的标注结果不一致,将第一打标数据和第二打标数据记录为无效数据并将清除。本发明通过提前清除用于模型训练的样本数据中的无效数据,可以提高了模型训练的训练效果和检测效果。 | ||
搜索关键词: | 打标 样本数据 计算机设备 存储介质 模型训练 数据使用 无效数据 数据处理 数据打 标注 数据采样 数据集合 数据记录 训练效果 不一致 噪声 复制 集合 保留 检测 | ||
【主权项】:
1.一种数据处理方法,其特征在于,包括:获取初始样本数据集合中的样本数据的数量,并执行数据采样流程,且所述数据采样流程的执行次数与所述样本数据的数量一致,所述数据采样流程包括:从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据,再将剪切的所述样本数据复制之后放回所述初始数据集合中;将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据,所述噪声待打标数据是指冗余或/和异常错误的待打标数据,所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据;从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据,并对选取的所述第一待打标数据进行复制之后,得到第二待打标数据;对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据,同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据,并将所述第一打标数据和所述第二打标数据存储至预设数据库,所述第一打标数据和所述第二打标数据是带有标注结果的打标数据;判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致;若所述第一打标数据和所述第二打标数据中的标注结果不一致,则将所述第一打标数据和所述第二打标数据记录为无效数据,并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910432715.7/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理