[发明专利]一种基于独立成分分析和核密度估计的虚拟样本生成方法在审
| 申请号: | 201910357339.X | 申请日: | 2019-04-29 |
| 公开(公告)号: | CN110097116A | 公开(公告)日: | 2019-08-06 |
| 发明(设计)人: | 董小社;袁坤;王龙翔;张兴军;王强;王宇菲 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 独立成分分析 核密度估计 虚拟样本 样本 概率密度函数 训练样本 原始样本 概率密度函数估计 机器学习模型 系统运行 训练机器 准确度 应用面 去除 引入 缓解 学习 | ||
本发明公开了一种基于独立成分分析和核密度估计的虚拟样本生成方法,本发明在系统运行初期,训练样本数量不足的情况下,利用核密度估计的方法,通过少量样本的概率密度函数估计样本整体的概率密度函数,当原始样本各属性之间存在相关性时先采用独立成分分析的方法去除原始样本各属性之间的相关性,再进行核密度估计,根据估计得到的概率密度函数生成虚拟样本。本发明可以缓解训练机器学习模型时训练样本不足的问题,提高机器学习模型的准确度。相较于其他虚拟样本生成方法,本发明引入了独立成分分析方法解决了样本各个属性间具有相关性的问题,从而拓宽了本发明的应用面。
技术领域
本发明属于计算机领域,具体涉及一种基于独立成分分析和核密度估计的虚拟样本生成方法。
背景技术
目前机器学习方法被越来越多地应用在各个领域之中。对于经典统计学所无法解决的问题,人们希望可以用机器学习的方法去解决。样本数量对机器学习方法的准确性影响很大。但是在很多情况下,由于受到采样时间和成本的限制,往往存在样本数量不足的问题。
虚拟样本生成技术最早由Niyogi等提出。王旭等将虚拟样本生成方法分为三类,基于先验知识、基于扰动以及基于研究领域的分布函数。虚拟样本生成技术被应用到能量预测模型的构建过程中,虚拟样本生成技术使能量预测模型的精度得到了显著的提升。Lee等人利用潜在信息函数生成虚拟样本,提升基于神经网络的需求预测模型性能。Arora等人通过经验公式生成虚拟样本,并利用带有虚拟样本的数据集成功构建了一个基于人工神经网络的计算模型,估算电池发热率。
现有的虚拟样本生成方法,主要针对属性间相互独立的样本,没有考虑样本属性间的相关性。
发明内容
本发明的目的在于克服上述不足,提供一种应用面更广、操作更简单的基于独立成分分析和核密度估计的虚拟样本生成方法,提高机器学习模型的准确率。
为了达到上述目的,本发明包括以下步骤:
步骤一,对原始样本数据进行独立成分分析,去除属性间的相关性,并判断分析结构是否收敛;
步骤二,若收敛,则对独立样本采用多核密度估计法估计概率密度函数,并取样;若不收敛,则对原始样本采用多核密度估计法估计概率密度函数,并取样;
步骤三,采用步骤一中独立成分分析的结果对步骤二中收敛取样的数据进行恢复相关性,使收敛取样后的数据映射回原始样本空间,得到虚拟样本;
步骤四,将虚拟样本与原始样本进行混合,得到最终的扩充的样本集。
当样本数据各个属性间存在相关性时,独立成分分析所得到的结果如下:
假设收集到少量样本为,
x=(x1,x2,…,xn),x∈Rn
假设x是由n个相互独立的随机变量s经过线性变换后所得到的,则有,
s=(s1,s2,…,sn),s∈Rn
假设A为混合矩阵则有,
x(i)=As(i),i=(1,2,…,m),A为常量;
其中,x为已收集到的样本,s为经过独立成份分析后得到的独立随机变量。
采用多核密度估计法估计概率密度函数的方法如下:
核密度估计的数学表达式为,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910357339.X/2.html,转载请声明来源钻瓜专利网。





