[发明专利]基于模型共识的无标注数据应用方法和装置、设备、介质在审
申请号: | 201810697925.4 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108959534A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 詹晓航;刘子纬;闫俊杰;林达华;吕健勤 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 连通域 数据集中 方法和装置 目标数据 数据分配 数据应用 标签 相似度计算 基础模型 数据对应 单模型 鲁棒性 申请 | ||
本申请实施例公开了一种基于模型共识的无标注数据应用方法和装置、设备、介质,其中,方法包括:基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;基于至少一对所述目标数据对确定至少一个连通域;根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签,其中,每个所述连通域内的无标注数据对应一个标签。基于本申请上述实施例,根据连通域为无标注数据集中的至少两个无标注数据分配标签,通过多模型解决了单模型下相似度计算的偏差,提升数据对选择的鲁棒性,充分利用了无标注数据。
技术领域
本申请涉及计算机视觉技术领域,尤其是一种基于模型共识的无标注数据应用方法和装置、设备、介质。
背景技术
随着深度学习中模型的增大,在对模型进行训练时,需要更多的标注数据,因此需要的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,人工标注数据所带来的增益会远远低于标注本身耗费的劳动量。因此,需要一种合理的方式来利用无标注数据。
发明内容
本申请实施例提供的一种基于模型共识的无标注数据应用方法。
根据本申请实施例的一个方面,提供的一种基于模型共识的无标注数据应用方法,包括:
基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对;
基于至少一对所述目标数据对确定至少一个连通域;
根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签,其中,每个所述连通域内的无标注数据对应一个标签。
可选地,所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对之前,还包括:
基于已标注数据初始化所述基础模型和所述至少一个委员会模型,得到初始化后的基础模型和初始化后的委员会模型;
所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对,包括:
基于所述初始化后的基础模型和至少一个所述初始化后的委员会模型,从无标注数据集中获得至少一对目标数据对。
可选地,所述基于基础模型和至少一个委员会模型,从无标注数据集中获得至少一对目标数据对,包括:
基于所述基础模型从无标注数据集中获得至少一对候选数据对;
基于至少一个所述委员会模型,对所述无标注数据集进行处理,得到每对所述候选数据对中数据间的关联关系,所述关联关系包括以下至少一种:所述候选数据对是否对应相同的标签的判别信息、所述候选数据对中两个无标注数据之间的相关相似度、所述候选数据对中两个无标注数据的结构特征数据;
基于所述关联关系从所述候选数据对中确定至少一对目标数据对。
可选地,所述基于所述基础模型从无标注数据集中获得至少一对候选数据对,包括:
经所述基础模型对所述无标注数据集进行特征提取,获得所述无标注数据对应的数据特征;
基于所述数据特征确定所述无标注数据集中各无标注数据之间的初始相似度;
基于所述初始相似度获得至少一对所述候选数据对,每对所述候选数据对中的两个无标注数据之间的初始相似度大于或等于预设值。
可选地,所述基于所述初始相似度获得至少一对所述候选数据对,包括:
基于第一数据与至少一个第二数据之间的初始相似度进行筛选,获得所述初始相似度大于预设值的至少一个所述候选数据对,每个候选数据对包括第一数据和一个第二数据;所述第一数据为所述无标注数据集中的一个无标注数据,所述第二数据为所述无标注数据集中除第一数据外的所有无标注数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810697925.4/2.html,转载请声明来源钻瓜专利网。