[发明专利]数据处理方法及装置、电子设备和计算机可读存储介质在审
| 申请号: | 201911284423.X | 申请日: | 2019-12-13 |
| 公开(公告)号: | CN111178399A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本公开实施例提供了一种数据处理方法及装置、电子设备和计算机可读存储介质,属于计算机技术领域。该方法包括:获取对象的特征信息;根据对象的特征信息,获得特征的相关度;根据特征的相关度对对象进行聚类处理,获得聚类结果;将聚类结果中占比少的对象作为少数类样本,将聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:N,N为数据不均衡倍率且为大于1的正整数;基于少数类样本和多数类样本,对少数类样本进行扩散,获得合成少数类样本;根据少数类样本、多数类样本和合成少数类样本对分类模型进行训练。通过本公开实施例提供的方案,能够自动给样本打上标签,节省了大量人力物力。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。
背景技术
在相关技术中,用于训练分类模型的训练数据集中的样本的标签均采用人工标注,需要耗费大量的人力物力,效率低下,成本较高,且人工标注过程中容易出现错误。
因此,需要一种新的数据处理方法及装置、电子设备和计算机可读存储介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种数据处理方法及装置、电子设备和计算机可读存储介质,能够自动识别用于训练分类模型的训练数据集中的样本的类别,自动为训练样本打上标签。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种数据处理方法,所述方法包括:获取对象的特征信息;根据所述对象的特征信息,获得特征的相关度;根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果;将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:N,N为数据不均衡倍率且为大于1的正整数;基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本;根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。
本公开实施例提供一种数据处理装置,所述装置包括:特征信息获取单元,用于获取对象的特征信息;特征相关度获得单元,用于根据所述对象的特征信息,获得特征的相关度;聚类结果获得单元,用于根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果;样本类别确定单元,用于将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:N,N为数据不均衡倍率;少数类样本合成单元,用于基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本;分类模型训练单元,用于根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的数据处理方法。
本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911284423.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于外部存储卡的固件升级方法和装置
- 下一篇:一种天线罩系统





