[发明专利]一种数据处理方法及装置、可读存储介质有效
申请号: | 202011644826.3 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112734035B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 张翼;顾华鑫;李辰;廖强 | 申请(专利权)人: | 成都佳华物链云科技有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/776;G06V10/82 |
代理公司: | 北京超凡宏宇知识产权代理有限公司 11463 | 代理人: | 张萌 |
地址: | 610000 四川省成都市天府新区华*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 可读 存储 介质 | ||
本申请提供一种数据处理方法及装置、可读存储介质。数据处理方法包括:获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;将多张样本图片分别输入到多个验证模型中,获得每个验证模型输出的验证结果;验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;多个标签不相同;标注标签属于多个标签中的标签;根据多个验证模型输出的验证结果确定每张样本图片对应的标注标签与多个标签之间的平均交叉熵;根据多张样本图片的平均交叉熵确定多个标签的拟合分布;根据每张样本图片的平均交叉熵在拟合分布中的概率确定每张样本图片对应的标注标签是否为正确标签。该方法提高标签清洗的准确度和效率。
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种数据处理方法及装置、可读存储介质。
背景技术
对于神经网络模型的训练样本,其对应的标注标签通常均由人工进行标注。人工标注的标签存在不准确的问题,因此,需要对人工标注的标签进行清洗。
现有技术中,在进行标签清洗时,主要通过人工筛选出错误标签。人工筛选错误标签对数据标注从业者的要求较高,特别是在某些特殊的数据行业,非行业人员可能需要更久的培训时间,并且还有人工效率较低等问题。
因此,现有的标签清洗方式的准确度和效率都较低。
发明内容
本申请实施例的目的在于提供一种数据处理方法及装置、可读存储介质,用以提高标签清洗的准确度和效率。
第一方面,本申请实施例提供一种数据处理方法,包括:获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;将所述多张样本图片分别输入到所述多个验证模型中,获得每个验证模型输出的验证结果;所述验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;所述预设的多个标签不相同;所述标注标签属于所述多个标签中的标签;根据所述多个验证模型输出的验证结果确定每张样本图片对应的标注标签与所述多个标签之间的平均交叉熵;根据多张样本图片的平均交叉熵确定所述多个标签的拟合分布;根据每张样本图片的平均交叉熵在所述拟合分布中的概率确定每张样本图片对应的标注标签是否为正确标签。
在本申请实施例中,与现有技术相比,通过预先训练好的多个验证模型,分别输出每张样本图片的标签为预设的多个标签中的每个标签的概率,基于该概率,确定每张样本图片对应的标注标签与多个标签之间的平均交叉熵,该平均交叉熵可代表真实标签与标注标签之间的距离;基于该平均交叉熵确定多个标签的拟合分布,最后根据平均交叉熵在拟合分布中的概率确定标注标签是否为正确标签。在这个过程中,不需要人工的筛选,提高标签清洗的效率;同时,基于平均交叉熵、验证模型和概率分布,对标签进行更科学的分析,提高标签清洗的准确性。
作为一种可能的实现方式,在所述获取多张样本图片和预先训练好的多个验证模型之前,所述方法还包括:获取交叉数据集;所述交叉数据集中包括训练数据集和验证数据集,所述训练数据集中包括多张第一样本图片,所述验证数据集中包括多张第二样本图片,所述多张第一样本图片和所述多张第二样本图片均选自所述多张样本图片;通过所述交叉数据集分别对多个初始的验证模型进行训练,获得训练好的多个验证模型;其中,所述训练数据集用于对初始的验证模型中的分类器进行训练,所述验证数据集用于对训练得到的验证模型进行测试。
在本申请实施例中,通过选自多张样本图片的交叉数据集,实现验证模型的交叉训练,提高验证模型的准确率。
作为一种可能的实现方式,在所述通过所述交叉数据集分别对多个初始的验证模型进行训练,获得训练好的多个验证模型之后,所述方法还包括:确定训练好的多个验证模型的准确率和召回率;根据所述准确率和所述召回率确定所述训练好的多个验证模型的质量评分;根据所述质量评分对所述训练好的多个验证模型进行优化。
在本申请实施例中,通过准确率和召回率,确定质量评分,然后再通过质量评分对验证模型进行优化,提高验证模型的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都佳华物链云科技有限公司,未经成都佳华物链云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011644826.3/2.html,转载请声明来源钻瓜专利网。