[发明专利]数据清洗设备、数据清洗方法和人脸验证方法在审
| 申请号: | 202080080965.X | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN114730309A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 刘杰;周扬 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06V40/16;G06V10/30;G06V10/764 |
| 代理公司: | 深圳市智圈知识产权代理事务所(普通合伙) 44351 | 代理人: | 李璇 |
| 地址: | 523860 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 清洗 设备 方法 验证 | ||
本申请实施例提供了一种数据清洗方法。所述方法包括:获取训练人脸数据集,所述训练人脸数据集包括多个训练图像,每个所述训练图像被标记有人员ID;获取候选人脸验证模型,并利用所述多个训练图像训练所述候选人脸验证模型;在所述训练后,从所述候选人脸验证模型中获取多个特征嵌套,并确定一个人员ID的平均特征嵌套与标记为所述同一个人员ID的每个图像之间的相似度;从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像;以及响应于接收确认信号,删除提取的所述至少一个训练图像。
相关申请的交叉引用
本申请要求于2019年11月20日提交的申请号为NO.62/938,246,标题为“人脸检测数据集的弱监督清洗方法和系统”的美国临时申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机视觉技术领域,更具体地,涉及一种数据清洗设备、一种数据清洗方法和一种人脸验证方法。
背景技术
作为一项重要的识别和辨别技术,人脸识别在现代社会具有不可替代的功能。对于人脸验证来说,误报(false positives)和漏报(false negatives)都应该最小化,以避免失败和黑客。在这种情况下,人脸数据集的质量是非常重要的。然而,由于操作员和测试员的不专业,通常人脸数据收集涉及不一致的问题,不准确的人脸检测也可能降低人脸验证的性能。为了获得具有高可靠性和准确性的人脸识别,需要对数据进行清洗和处理,从而删除噪声图像。
现有的数据清洗流程(data clean pipelines)包括人工清洗和基于模型的清洗。然而,人工清洗需要大量的人力,当人脸图像的数量巨大(超过几百万)时,人工清洗是无法实现的,而基于模型的清洗可能会过度清洗数据或者仍然留下太多噪声。
发明内容
在本申请中,我们打算设计一种基于人脸验证模型的人脸数据集的半自动清洗流程,伴随着少量的人类视觉检查,其可以在不过度清洗数据集的情况下,擦除不必要的噪声图像。
本申请实施例提供了一种数据清洗方法。所述方法包括:获取训练人脸数据集,所述训练人脸数据集包括多个训练图像,每个所述训练图像被标记有人员ID(或称人员标识);获取候选人脸验证模型,并利用所述多个训练图像训练所述候选人脸验证模型;在所述训练后,从所述候选人脸验证模型中获取多个特征嵌套,并确定一个人员ID的平均特征嵌套与标记为同一个人员ID的每个图像之间的相似度;从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像;以及响应于接收确认信号,删除提取的所述至少一个训练图像。
本申请实施例提供了一种人脸验证方法。所述方法包括:提供训练人脸数据集,所述训练人脸数据集包括多个训练图像,每个所述训练图像被标记有人员ID;获取候选人脸验证模型,并利用所述多个训练图像训练所述候选人脸验证模型;在所述训练后,从所述候选人脸验证模型中获取多个特征嵌套,并确定一个人员ID的平均特征嵌套与标记为同一个人员ID的每个图像之间的相似度;从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像;响应于接收确认信号,删除提取的所述至少一个训练图像,以更新所述训练人脸数据集;利用更新后的所述训练人脸数据集训练所述候选人脸验证模型;以及利用训练后的所述候选人脸验证模型执行人脸验证。
本申请实施例提供了一种数据清洗设备。所述设备包括:训练单元,用于使用训练人脸数据集训练候选人脸验证模型,其中所述训练人脸数据集包括多个训练图像,每个所述训练图像包括人脸,并被标记有对应的人员ID;获取单元,用于在所述训练后从所述候选人脸验证模型中获取多个特征嵌套,并计算一个人员ID的平均特征嵌套与标记为同一个人员ID的每个图像之间的相似度;以及提取单元,用于从所述多个训练图像中提取至少一个相似度小于相似度阈值的训练图像,输出提取的所述至少一个训练图像以供检查,以及响应于接收确认信号,删除提取的所述至少一个训练图像。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080080965.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





