[发明专利]一种基于高维数据分布的复合式伪标签拟合方法在审
申请号: | 202210254810.4 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114611612A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王崎;吴晨阳;陈玉玲;李少波;李佳星;杨峰 | 申请(专利权)人: | 贵州大学;贵州明翌达科技服务股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458;G06N20/00 |
代理公司: | 贵阳东圣专利商标事务有限公司 52002 | 代理人: | 袁庆云 |
地址: | 550025 贵州省*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分布 复合 标签 拟合 方法 | ||
本发明公开了一种基于高维数据分布的复合式伪标签拟合方法,包括:对各维度进行统计,获得数据分布特征;两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对;每组维度都使用采样数据训练独立小模型;用输入数据统计分布特征做为训练标签,在分布特征标签下进行模型的深度学习训练;实现对数据的降维:判断维度是否降为一;构造新模型,将全部数据、全维度依据伪标签使模型进行有监督学习。本发明能使超高维无标签数据进行模型训练。
技术领域
本发明涉及大数据处理领域,具体来说涉及一种基于高维数据分布的复合式伪标签拟合方法。
背景技术
近年来,随着人工智能深度学习技术的兴起,使用有标签数据进行训练模型成为行业的热点,由于人工标记工作量较大、成本较高,研究人员开始探索一种模型自我构建标签的方式进行学习,出现了伪标签技术。伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。简单来说,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。但随着日常生活中需要标记的数据越来越多,研究人员对广大无标签数据研究也越来越深入,伪标签技术被公认为处理无标签数据的最佳方案。
但目前伪标签技术仅适用于低维度、易人工标记的数据,并不适用于高维度数据的伪标签的构建。现有的基于谱聚类的半监督学习的软件缺陷预测方法,对于数据存在的空间没有进行深度探索,这样会导致谱聚类方法不能发挥优势,使用聚类的方式会导致结果数据空间分布出现偏差、为构造模型而进行的人力劳动增加、由于人工偏差导致的模型错误率增加等问题。目前,超高维无标签数据伪标签构建所使用方法不能有效结合每个维度得出更加综合的结果输出。
发明内容
本发明的目的在于克服上述缺点而提供的一种能使超高维无标签数据进行模型训练的基于高维数据分布的复合式伪标签拟合方法。
为实现上述目标,本发明技术方案如下:
本发明的一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:
(1)对各维度进行统计,获得数据分布特征:随机对每个维度进行采样,获取t个数据,对此t个数据进行统计,首先取得t个数据中的最大值(max)与最小值(min),按最大值与最小值的间隔(max-min)均匀分区,分为h个区间,则每个区间长度为:(max-min)/h,按每个区间起始位置大小,对每个区间按编号为0,1,2,3……h-1进行编号,后统计t个数据落到各个编号区间的数据数量,按照区间的编号,将每个编号区间的数据数量重新组合为长度为h的数组(大小为:[1 x h])的数据分布矩阵αn,此步操作设为函数A(Xn),此步骤数学表达为:A(Xn)=αn(αn是数据的统计分布特征矩阵,Xn表示总数据第n维度的总数据);
(2)两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对:由步骤(1)得到的第n维度数据的统计分布特征矩阵αn,进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用X表示)与维度n2的统计分布特征矩阵αn2(如下公式中用Y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性,
即:Pearsonr(X,Y)=ρ(X,Y)=(COV(X,Y))/(σXσY)=(E[(X-μX)(Y-μY)])/(σXσY)
):依据如上操作,计算出各个维度统计分布特征之间的相关性,后将此相关性数据取绝对值操作,后不重复地选取相关性最高的数据维度对,将取定的维度对存入特定数组,此数据维度两两组合,如出现不能配对的奇数,则对其进行自身与自身的配对;此操作设为函数B(α0,α1,α2……αn),此步骤的数学表达为:B(α0,α1,α2……αn)=Q1,Q2……Qn/2,Qn代表取定的第n个相关性较高的维度对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学;贵州明翌达科技服务股份有限公司,未经贵州大学;贵州明翌达科技服务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254810.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置