[发明专利]一种区分简单与困难样本的无监督域适应方法在审

申请号：	202210377197.5	申请日：	2022-04-11
公开（公告）号：	CN114781647A	公开（公告）日：	2022-07-22
发明（设计）人：	田青;杨宏;朱雅喃;许衡	申请（专利权）人：	南京信息工程大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	陈月菊
地址：	210044 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种区分简单困难样本监督适应方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种区分简单与困难样本的无监督域适应方法，包括：依据目标域样本的熵值来对目标域样本进行区分，将熵值大于等于预设熵值阈值的样本定义为简单样本，将熵值小于预设熵值阈值的样本定义为困难样本；对于分类为简单样本的目标域样本，采用源域训练好的分类器对其分配伪标签；对于分类为困难样本的目标域样本，利用步骤S2中分配好伪标签的简单样本将无监督域适应调整为半监督域适应，通过源域标签和目标域简单样本的标签来训练得到更加鲁棒的分类器，计算类中心，分别优化域间对比对齐和实例对比对齐，以减少域间和域内差异。本发明能够解决现有的域适应方法中对于目标域困难样本分类错误的问题。

技术领域

本发明属于迁移学习中的域适应技术领域，涉及一种区分简单与困难样本的无监督域适应方法。

背景技术

无监督域适应，主要解决的问题是具有数据分布相似以及类别相同，但是数据特征分布不同的源域和目标域。通过将源域的知识迁移到目标域中，解决目标域任务。目前，域适应已经应用在诸多领域并取得了成功。例如，在人脸识别方面，传统的人脸识别利用标注好的人脸图片数据集作为训练集，实现现实世界中的人脸识别等问题。但是，采集这些人脸图片并手动赋予标签是一件耗时耗力的事情，因此研究者们引入域适应方法，以其他场景的人脸图片作为训练集(其分布与待完成任务的图像分布相似但不相同，例如不同背景、不同光照下的人脸图片)，并取得了良好的效果。

无监督域适应的目的是将有标签的源域样本中所学知识传递给无标签的目标域样本。无监督域适应能利用现有的源域带标签数据和网络模型以及相关的目标域无标签数据学习得到适用于目标域数据分类的网络模型。传统的无监督域适应方法通常利用相关距离度量等措施去对齐深层网络输出的源域和目标域的数据分布。近年来许多对抗性域适应的方法也被提出，并取得了较为显著的成果，这些方法大多是基于生成对抗网络。主要做法是训练鉴别器鉴别采样特征是来自于源域还是目标域，同时训练特征提取器欺骗鉴别器，以此使得源域和目标域特征分布对齐，无法区分。这些方法大多侧重于将目标域视为一个整体，将源域和目标域进行域对齐来提取域不变特征。即使有些方法在类级别上实现了类对齐，但目标域样本的区分度不够显著，因此，分类效果还有待提高。

发明内容

解决的技术问题：本发明的目的在于针对上述已有技术方法的不足，提出一种区分简单与困难样本的无监督域适应方法，以解决现有的域适应方法中对于目标域困难样本分类错误的问题。

技术方案：。

一种区分简单与困难样本的无监督域适应方法，所述无监督域适应方法包括以下步骤：

S1，样本区分：依据目标域样本的熵值来对目标域样本进行区分，将熵值大于等于预设熵值阈值的样本定义为简单样本，将熵值小于预设熵值阈值的样本定义为困难样本；

S2，简单样本的无监督域适应：对于分类为简单样本的目标域样本，采用源域训练好的分类器对其分配伪标签；

S3，困难样本的无监督域适应：对于分类为困难样本的目标域样本，利用步骤S2中分配好伪标签的简单样本将无监督域适应调整为半监督域适应，通过源域标签和目标域简单样本的标签来训练得到更加鲁棒的分类器，计算类中心，分别优化域间对比对齐和实例对比对齐，以减少域间和域内差异。

进一步地，步骤S1中，所述样本区分的过程包括以下子步骤：

S11，根据式(1)计算得到目标域样本v的熵值H(v)：

其中，v_k为分类器输出类k的概率，K是分类器输出总类数。

S12，根据式(2)进行样本区分，得到区分后的样本和

其中，τ为所设置的阈值，n_t代表目标域的样本数量，和分别表示简单和困难的目标域样本。