[发明专利]一种基于流形迁移学习的数据标定方法及系统在审

申请号：	201810305890.5	申请日：	2018-04-08
公开（公告）号：	CN108960270A	公开（公告）日：	2018-12-07
发明（设计）人：	陈益强;王晋东;冯文杰;忽丽莎	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标定流形标签特征数据目标域源域目标特征向量数据标定迁移目标流源特征向量大规模数据主成分分析运行效率映射学习统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于流形迁移学习的数据标定方法和系统，包括：获取已标定标签的特征数据作为源域，获取待标定标签的特征数据作为目标域，对源域和目标域分别进行主成分分析，得到源特征向量和目标特征向量；将源特征向量和目标特征向量分别映射至流形空间，以得到源域在流形空间中的源流形特征和目标域在流形空间中的目标流形特征；统计源域具有的标签种类，并根据标签种类下的特征数据个数，得到每一类标签下源流形特征的平均值，并根据平均值和目标流形特征间的距离，为目标域中的特征数据标定标签。本发明简化了大规模数据的标定，提高了方法的泛化能力，提高了迁移标定的运行效率。

技术领域

本发明涉及机器学习、迁移学习及数据标定领域，具体涉及一种基于流形迁移学习的数据标定方法及系统。

背景技术

大数据时代产生了大量的人群行为、交通模式、生活数据、健康、办公、医疗等各个方面的用户数据。基于这些大规模的图像、文本、音视频数据，研究人员可以进行更加广泛而深入的分析与应用。同时，工业界也可以基于这些数据，为用户定制更具个性化的服务。然而，尽管这些数据可以很容易地被获取到，但是它们往往都以无标定的形态出现。没有足够的标记，很难对这些数据进行最大程度的利用。并且，通常只能获取这些数据某些侧面的信息(如，不同的图像在不同的光照条件、不同背景、不同视角下往往呈现不同的特征分布)，而无法收集所有方面的数据信息；可获取的数据通常也具有不同的性质：或者具有不同的数据特征维度，或者具有不同的特征分布，又或者具有不同的数据类别。

为了解决这个标定数据的难题，传统的机器学习方法假设训练数据和测试数据均属于同一种数据分布，以此来训练相关的模型，实现数据标定。然而，由于这些数据分布的高动态性和高差异性，传统的机器学习方法对此类问题无法产生具有强泛化能力的求解方案。随着机器学习方法的发展，陆续出现了多视图学习、多任务学习、自学习、流形学习等方法，均可以用于进行不同数据分布下的机器学习。多视图学习从不同角度看待数据的学习目标，用不同的思路对数据进行建模，继而从不同的模型层面，对数据进行表征；多任务学习用不同的模型对数据各自建模，然后通过多个模型的协同更新来描述数据的分布；自学习方法则是通过无监督或半监督的模式自发从数据中学习相关的知识，完成知识的表征；流形学习方法的主要思想是将高维数据映射到低维数据，使低维数据能够反映原高维数据的某些本质结构特征。流形学习的前提是某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。假定数据处于一个高维流形中的低维嵌入，通过数据运算，根据流形特征进行不同数据的相似性匹配。

迁移学习作为机器学习的一大分支，其区别于传统机器学习方法之处在于，通过找寻待标定数据和已知标签数据之间的联系，从已知标签的数据中学习知识，迁移到待标定数据中，完成迁移标定。迁移学习在解决数据分布动态变化、数据维度不一致，以及数据类别不同的问题具有明显的优势。但是，现有的迁移学习方法往往只侧重于解决两方面的问题：或者进行子空间学习，把数据映射到不同的子空间进行不同数据的适配；或者进行概率分布适配，在一个高维空间中最小化已有的标定数据和待求解的目标数据之间的距离。子空间学习方法在学习子空间后，数据特征仍然存在漂移，导致结果不够精确；概率分布适配方法只是在原始特征空间中进行，而原始空间中的特征往往存在扭曲状态，也会导致结果不够精确。

综合上述分析，现存的机器学习和迁移学习方法存在以下不足：

1)传统机器学习：由于在大数据环境中，数据分布往往具有高动态性和高差异性，因此，传统的机器学习方法对于不同数据分布下大规模数据标定的问题不再适用；

2)多视图学习、多任务学习和自学习方法从不同角度来学习待预测的目标，极大地受限于先验知识，即如果没有相关的领域知识，很难对问题进行快速地建模求解。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810305890.5/2.html，转载请声明来源钻瓜专利网。

上一篇：数据集的特征获取方法、装置及计算设备
下一篇：一种基于图像识别的餐饮收货诚信规范方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于流形迁移学习的数据标定方法及系统在审

专利文献下载