[发明专利]训练数据处理方法、装置及设备在审
申请号: | 202110265688.6 | 申请日: | 2021-03-11 |
公开(公告)号: | CN113705599A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 彭健腾 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 数据处理 方法 装置 设备 | ||
本申请公开了一种训练数据处理方法、装置及设备,应用于人工智能领域。方法包括:获取第一分类识别模型识别出的分类标识相同的至少两个图像、以及至少两个图像对应的图像特征信息和置信度;根据至少两个图像对应的图像特征信息和置信度,确定至少两个图像的关联信息;其中,关联信息表征至少两个图像间的相关性;将至少两个图像对应的图像特征信息和关联信息输入数据清洗模型进行数据清洗,得到至少两个图像中分类标识错误的目标图像;其中,目标图像用于训练第二分类识别模型。利用本申请实施例提供的技术方案至少可以实现训练数据处理的自动化。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种训练数据处理方法、装置及设备。
背景技术
人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。其中,在机器学习的方向,人工智能软件技术的应用包括数据的分类识别。
目前为了提高分类识别模型的分类识别能力,可采用人工的方式清洗出分类识别模型识别错误的数据,利用识别错误的数据训练分类识别模型。但是这种人工进行数据清洗的方案,需要消耗大量人力和时间,导致人工负担过大,还导致数据清洗的效率过低。
发明内容
本申请提供了一种训练数据处理方法、装置、设备及计算机可读存储介质,至少能够解决相关技术中无法实现数据清洗的自动化、消耗大量人力和时间、以及效率过低的问题。
一方面,本申请提供了训练数据处理方法,所述方法包括:
获取第一分类识别模型识别出的分类标识相同的至少两个图像、以及所述至少两个图像对应的图像特征信息和置信度;
根据所述至少两个图像对应的图像特征信息和置信度,确定所述至少两个图像的关联信息;其中,所述关联信息表征所述至少两个图像间的相关性;
将所述至少两个图像对应的图像特征信息和所述关联信息输入数据清洗模型进行数据清洗,得到所述至少两个图像中分类标识错误的目标图像;其中,所述数据清洗模型基于所述第一分类识别模型识别出的样本分类标识相同的第二训练数据、以及所述第二训练数据对应的样本特征信息和样本置信度训练得到;其中,所述目标图像用于训练第二分类识别模型。
另一方面,本申请还提供了一种训练数据处理装置,所述装置包括:
获取模块,用于获取第一分类识别模型识别出的分类标识相同的至少两个图像、以及所述至少两个图像对应的图像特征信息和置信度;
确定模块,用于根据所述至少两个图像对应的图像特征信息和置信度,确定所述至少两个图像的关联信息;其中,所述关联信息表征所述至少两个图像间的相关性;
数据清洗模块,用于将所述至少两个图像对应的图像特征信息和所述关联信息输入数据清洗模型进行数据清洗,得到所述至少两个图像中分类标识错误的目标图像;其中,所述数据清洗模型基于所述第一分类识别模型识别出的样本分类标识相同的第二训练数据、以及所述第二训练数据对应的样本特征信息和样本置信度训练得到;其中,所述目标图像用于训练第二分类识别模型。
另一方面,本申请还提供了一种训练数据处理设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的训练数据处理方法。
另一方面,本申请还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的训练数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265688.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性盖窗及可折叠显示装置
- 下一篇:信息处理系统