[发明专利]一种面向多源实例迁移学习的样本筛选和权重计算方法在审
申请号: | 201710406537.1 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107273922A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 李维华;金宸;姬晨;王顺芳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 云南派特律师事务所53110 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 实例 迁移 学习 样本 筛选 权重 计算方法 | ||
技术领域
本发明属于人工智能,涉及一种面向多源的实例迁移学习方法。
背景技术
迁移学习是利用一个或者几个有充足标签样本的领域去对一个与之相关但标签样本不足的新兴领域进行学习的过程和方法。有充足标签样本的领域称为源领域,标签样本不足的新兴领域称为目标领域。基于实例迁移的迁移学习方法,主要就是在源领域数据集中寻找可以提高目标领域分类器性能的样本数据。这类算法的关键是利用目标的标签样本对源领域和目标领域中每个样本赋予权值并通过迭代方式不断更新。然而,当目标领域中有标记的训练样本太少时,目标领域少量的标签样本就会淹没在大量的源领域样本中,使目标领域的训练样本对最终分类器的构建的贡献不能充分体现。同时,源领域可能存在与目标领域中样本差异较大的样本,这些数据不仅会使分类的效率变低,甚至会给最终分类的结果带来负面的影响。本发明旨在充分利用目标领域中无标签数据和有标签数据,并在迭代之前剔除源领域中与目标领域有较大差异的样本,在迭代的过程中使用特征距离作为动态更新样本权重的依据之一,进一步优化已有的迁移学习算法。
发明内容
本发明面向多源实例迁移学习,旨在充分利用目标领域中大量无标签数据和少量有标签数据,同时剔除源领域中与目标领域不太相关的样本。该发明提供一种在多源实例迁移学习中样本筛选和权重计算方法。
1. 面向多源实例迁移学习的样本筛选和权重计算方法,其特征在于包括以下步骤:
步骤1:输入在特征集X={x1,x2,……,xm}和标签属性y上的n个源领域数据集,…,和一个目标领域有标签数据集;和一个在特征集X={x1,x2,……,xm}上的目标领域无标签数据集
;;
步骤2:在数据集上分别计算协方差阵,及其特征值v1={v11,v12,…,v1m},v2={v21,v22,…,v2m},…,vn={vn1,vn2,…,vnm};
步骤3:将分别归一化得到w1={w11,w12,…,w1m},w2={w21,w22,…,w2m},…,wn={wn1,wn2,…,wnm};
步骤4:分别计算与的n个距离矩阵R1,R2,…,Rn,
,1≤k≤n;
,表示的第i个样本与的第j个样本之间的距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710406537.1/2.html,转载请声明来源钻瓜专利网。