[发明专利]样本选择方法、装置、计算机设备及存储介质在审

申请号：	202110475560.2	申请日：	2021-04-29
公开（公告）号：	CN113077015A	公开（公告）日：	2021-07-06
发明（设计）人：	钱江;钟志权;庄伯金	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	周雷
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本选择方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，尤其涉及一种样本选择方法、装置、设备及存储介质。该样本选择方法包括获取将多个待标注样本输入至预训练的深度神经网络模型中进行识别，以得到每一所述待标注样本对应的目标特征以及所述目标特征对应的所属类别；对所述待标注样本中同一类别的目标特征进行聚类，得到每一所述类别对应的多个类簇；计算同一待标注样本对应的目标特征与每一所述聚类中心的距离，将距离作为每一所述目标特征对应的特征距离；基于同一待标注样本对应的多个所述特征距离，计算所述待标注样本的样本得分；根据每一所述待标注样本的样本得分，确定目标标注样本。该方法可有效提高标注样本选择的准确度。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种样本选择方法、装置、计算机设备及存储介质。

背景技术

深度神经网络在计算机视觉领域的巨大成功受益于复杂的深度网络结构及海量的标注数据，但是在一些复杂的任务如检测、分割或者医学图像领域，数据的标签往往并不容易获取，且若对获取的所有样本数据进行标注，则需要耗费大量的人力成本。

目前，主动学习技术能够从大量的未标注数据中获取对当前模型提升最有帮助的样本进行标注，从而有效降低标注成本。然而，现有的主动学习方法大多应用于图像分类问题，通过模型的预测后验概率去衡量未标注数据的信息量，进而选择信息量较大的数据作为待标注样本。这类方法具有很大的局限性，不仅严重依赖于模型的预测概率，而且容易出现样本数据分布不一致导致样本选择的准确度较低，此外，针对目标检测问题进行样本选择，需要同时得到图像中每一个目标框的类别和位置信息，通过计算每一个框预测后验概率的熵，然后去估计整体的信息量，而仅仅利用图像的全局特征进行待标注样本的选择是不足的，信息量的不确定性与图像中的每一个目标特征都息息相关，因此该种通过全局特征估计信息量的方式不仅容易受到模型本身不确定性的影响，而且也无法缓解类别不平衡的问题。

发明内容

本发明实施例提供一种样本选择方法、装置、计算机设备及存储介质，以解决目前针对目标检测的任务场景下，基于主动学习技术实现标注样本选择的准确度不高的问题。

一种样本选择方法，包括：

将多个待标注样本输入至预训练的深度神经网络模型中进行目标检测，以得到每一所述待标注样本中目标检测物对应的目标特征以及所述目标特征对应的所属类别；

对所述待标注样本中同一类别的目标特征进行聚类，得到每一所述类别对应的多个类簇；每一所述类簇对应一聚类中心；

计算同一所述待标注样本对应的所述目标特征与每一所述聚类中心的距离，将所述距离作为每一所述目标特征对应的特征距离；

基于同一所述待标注样本对应的多个所述特征距离，计算所述待标注样本的样本得分；

根据每一所述待标注样本的样本得分，确定目标标注样本。

一种样本选择装置，包括：

样本识别模块，用于将多个待标注样本输入至预训练的深度神经网络模型中进行目标检测，以得到每一所述待标注样本中目标检测物对应的目标特征以及所述目标特征对应的所属类别；

聚类模块，用于对所述待标注样本中同一类别的目标特征进行聚类，得到每一所述类别对应的多个类簇；每一所述类簇对应一聚类中心；

特征距离计算模块，用于计算同一所述待标注样本对应的所述目标特征与每一所述聚类中心的距离，将所述距离作为每一所述目标特征对应的特征距离；