[发明专利]一种面向异构用户的迁移学习方法有效
申请号: | 202011195428.8 | 申请日: | 2020-10-30 |
公开(公告)号: | CN112257806B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 叶阿勇;张娇美 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/2135;G06N3/0464;G06N3/048;G06N3/096;G06N20/00 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 用户 迁移 学习方法 | ||
本发明公开一种面向异构用户的迁移学习方法,服务器和其他参与者不会获得原始数据,一定程度上降低隐私泄露的风险。其次,通过域定界和二次降维筛选,样本数据与分类目标相关性更高,能够适应用户异构性,分类效果更好,能够极大程度上满足分类准确率高的需求。另一方面,Softmax和CNN的循环双分类算法,有监督的学习指导无监督的学习,提高标签不足数据分类精确度。本发明将本地端多渠道获取的数据,进行源域和目标域的选择和定界,以保证迁移学习有足够的数据量。在此基础上,满足多目标输出的需求并且提高分类准确率。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种面向异构用户的迁移学习方法。
背景技术
随着传统机器学习的不断发展和成熟,从大量有标签的数据中训练得到一个好的分类模型已相对容易。但真实的应用场景中,传统的机器学习方法仍然不能完全应用需求。一方面,获取带标签的数据相对困难。生活中产生的数据大多不含标签,而人工标签的成本又过高;并且数据采集往往还要考虑个人隐私及安全性问题,这也这一步增加数据获取的难度。另一方面,传统机器学习在每次数据更新时都需要重新建立模型和训练,从而耗费大量的时间和资源。
迁移学习一定程度上缓解了传统机器学习的数据压力,但也并不是任何情况都能进行迁移学习,“迁移”的效果也受很多因素的影响。现如今大多数的研究使用随机的源域数据导致分类精确度不高,且不能适应用户异构性,即无法满足多目标分类需求。而在使用多渠道获取的数据时,由于数据相关性差别较大会降低分类结果的精确度,随机确定源域和目标域可能会导致迁移学习无法发挥其数据量充足的优势,反而学习效率不高且精确度无法保证。在各方面因素的限制下,迁移学习的应用并没有很广泛,多数的研究只提出针对某一领域的事务分类提出特定的算法,并没有完整的模型架构。
综上,现有的分类模型没有一个从数据采集、数据处理再到分类算法的完整流程,无法满足多目标输出的问题,且分类准确率难以保证。
发明内容
本发明的目的在于提供一种面向异构用户的迁移学习方法。
本发明采用的技术方案是:
一种面向异构用户的迁移学习方法,其包括以下步骤:
步骤1、参与者在本地端进行数据采集和初级处理,实现第一次数据降维。
步骤2、根据参与者需求服务器端进行源域和目标域的选择与定界,实现第二次数据降维。
步骤3、使用S-CNN循环分类算法进行分类。
进一步地,步骤1的具体步骤如下:
步骤1-1,参与者在本地根据原始数据Xn×h,计算数据的协方差矩阵F:其中n为参与者本地数据的条目数,h为数据维度;
步骤1-2,根据|λE-F|=0,计算其所有的特征值λ及其对应的特征向量μ,其中E为单位矩阵;
步骤1-3,对特征值λi(λi∈λ)进行排序,并根据预定的阈值r选取主成分个数;
步骤1-4,输出前r个特征值对应的特征向量集合(μ1,μ2,…,μr),并且计算特征向量的模,单位化相应的r个特征向量,组成特征矩阵A;
步骤1-5,计算投影矩阵X'n×r=Xn×hA(rh),得到新的数据样本X';
步骤1-6,服务端接收并储存所有参与者上传的本地降维后的数据集合,形成样本数据池其中X′v表示数据池中第v个参与者上传的样本数据矩阵,N表示参与者个数;
进一步地,步骤2的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011195428.8/2.html,转载请声明来源钻瓜专利网。