[发明专利]基于模型共识的无标注数据应用方法和装置、设备、介质在审

申请号：	201810697925.4	申请日：	2018-06-29
公开（公告）号：	CN108959534A	公开（公告）日：	2018-12-07
发明（设计）人：	詹晓航;刘子纬;闫俊杰;林达华;吕健勤	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思源智汇知识产权代理有限公司 11657	代理人：	毛丽琴
地址：	100084 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标注连通域数据集中方法和装置目标数据数据分配数据应用标签相似度计算基础模型数据对应单模型鲁棒性申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种基于模型共识的无标注数据应用方法和装置、设备、介质，其中，方法包括：基于基础模型和至少一个委员会模型，从无标注数据集中获得至少一对目标数据对；基于至少一对所述目标数据对确定至少一个连通域；根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签，其中，每个所述连通域内的无标注数据对应一个标签。基于本申请上述实施例，根据连通域为无标注数据集中的至少两个无标注数据分配标签，通过多模型解决了单模型下相似度计算的偏差，提升数据对选择的鲁棒性，充分利用了无标注数据。

技术领域

本申请涉及计算机视觉技术领域，尤其是一种基于模型共识的无标注数据应用方法和装置、设备、介质。

背景技术

随着深度学习中模型的增大，在对模型进行训练时，需要更多的标注数据，因此需要的人工标注量也越来越多。然而人工标注的错误难以避免，当人工标注的可靠性不如模型本身的时候，人工标注数据所带来的增益会远远低于标注本身耗费的劳动量。因此，需要一种合理的方式来利用无标注数据。

发明内容

本申请实施例提供的一种基于模型共识的无标注数据应用方法。

根据本申请实施例的一个方面，提供的一种基于模型共识的无标注数据应用方法，包括：

基于基础模型和至少一个委员会模型，从无标注数据集中获得至少一对目标数据对；

基于至少一对所述目标数据对确定至少一个连通域；

根据所述连通域为所述无标注数据集中的至少两个无标注数据分配标签，其中，每个所述连通域内的无标注数据对应一个标签。

可选地，所述基于基础模型和至少一个委员会模型，从无标注数据集中获得至少一对目标数据对之前，还包括：

基于已标注数据初始化所述基础模型和所述至少一个委员会模型，得到初始化后的基础模型和初始化后的委员会模型；