[发明专利]一种图像数据多标签分类方法在审

申请号：	202010573202.0	申请日：	2020-06-22
公开（公告）号：	CN111797911A	公开（公告）日：	2020-10-20
发明（设计）人：	陈刚;胡天磊;陈珂;刘雨辰;李梦谨;王皓波;寿黎但	申请（专利权）人：	浙江大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种图像数据标签分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种图像数据多标签分类方法，其特征在于：包括如下步骤：

(1)获取有待分类的图片集D＝{pic_i|1≤i≤n}，其中，n是图片集D中图片的总数。图片集D中，每张图片上共有q个有序的待标记的标签，总共有l个图片已经被标记是否具有这q个标签，被标记的图片为pic_i，1≤i≤l。

(2)计算权重矩阵W，构建图片间的图关系，该步骤包括以下子步骤：

(2.1)将图片集中的图片输入已经训练好的卷积神经网络VGG Net，从输出中获取图片的特征向量集V＝{x_i|1≤i≤n}，其中，x_i是图片pic_i输入卷积神经网络得到的输出，是p维列向量；

(2.2)选取超参数k，根据图片特征向量集V计算特征向量x_i的k邻近集合kNN(x_i)，kNN(x_i)是图片特征向量集V中与特征向量x_i欧式距离最小的k个图片特征向量的集合；

对非负权重矩阵W＝[w_ij]_n×n，要求其满足：

w_ii＝0

w_ij≥0，j≠i，x_j∈kNN(x_i)

w_ij＝0，j≠i，

(2.3)对每个图片特征向量x_i，被其他图片特征向量线性重建为∑_j≠iw_ijx_j，选择权衡参数θ，权重矩阵W的线性重建误差定义如下：

其中||·||₂表示矩阵的二范数；

利用约束最小二乘规划方法来最小化线性重建误差Error(W)，建立以下最小化模型：

s.t.w_ii＝0

w_ij≥0，j≠i，x_j∈kNN(x_i)

w_ij＝0，j≠i，

j＝1，2，...，n

其中，w_·j是W的第j列向量，G^j表示w_·j对应的n行n列的格莱姆矩阵，G^j的第a行第b列元素为(x_j-x_a)′(x_j-x_b)，v′表示某向量v的转置；

通过凸二次规划问题的有效集方法求解以上最小化模型获得非负权重矩阵W，从而构建图片间的图关系。

(3)用基于协作的多标签传播算法(CMLP)来解决半监督多标签学习(SSML)问题，从而获得无标记图片的置信矩阵包括以下子步骤：

(3.1)通过归一化权重矩阵W来获得传播矩阵P：

其中，D＝diag{d₁，d₂，…，d_n}为对角矩阵，矩阵D的第i个对角元为这样通过归一化权重矩阵W来获得传播矩阵P，可以确保特征相近的图片具有的标签也是相近的；

构建已标记图片的目标矩阵Y＝[y_ij]_l×q如下：

y_ij＝1，图片pic_i有第j个标签

y_ij＝-1，图片pic_i没有第j个标签

选择协作程度参数α和正则化参数γ，计算相关矩阵R＝[r_ij]_q×q：

其中，y_·j，r_·j表示Y，R的第j列，I表示q×q的单位矩阵，是的转置矩阵，O_l×1是l维的零列向量。图像中的多个标签往往有一定的相关性，如标签“有太阳”和“是晴天”之间具有很强的相关性。通过计算相关矩阵，本发明提取出了这种相关性。当分类任务具有多个相关标签时，相关矩阵为提高预测结果的准确性提供了有力的工具。

(3.2)通过迭代交替更新F和Z，最小化以下损失函数：

其中F是模型输出，F′是F的转置矩阵，F^l是矩阵F前l行构成的矩阵，代表模型对已有标记的图像的预测结果，Z是模型的中间变量，P为(2.1)中得到的传播矩阵，矩阵Q＝(1-α)I+αR，R为(2.1)中得到的相关矩阵，α是(2.1)中选择的协作程度参数，μ和λ是权衡参数，tr(·)是矩阵的迹函数，||·||_F是矩阵的F-范数。

利用(2.1)中得到目标矩阵Y初始化模型输出F₀和中间变量Z₀：

Z₀＝Y

其中，O_(n-l)×q是(n-l)×q的零矩阵。

选择超参数学习速率β、迭代次数T，将初始化后的模型输出F₀和中间变量Z₀进行更新得到F_t和Z_t，迭代更新公式如下：

其中，是矩阵F_t+1前l行构成的矩阵，Q′是矩阵Q的转置矩阵。

通过将相关矩阵纳入迭代过程，本方法充分利用了标签之间的相关性，考虑了每一个标签对其他标签的预测，提高了预测结果的准确性。

T次迭代结束时，得到模型输出F＝F_T；

(3.3)将模型输出F转换为最终预测：

E＝F^uQ＝[e_ij]_(n-l)×q

其中，F^u是矩阵F第l+1行到第n行构成的矩阵，Q是(2.2)中迭代所使用的矩阵，Ψ是后处理运算符：

其中sgn为符号函数。

得到预测结果，当时，第i+l个图片上没有第q个标签；当时，第i+l个图片上有第q个标签；当时，第i+l个图片上有没有第q个标签不确定。