[发明专利]一种基于独立成分分析和核密度估计的虚拟样本生成方法在审

申请号：	201910357339.X	申请日：	2019-04-29
公开（公告）号：	CN110097116A	公开（公告）日：	2019-08-06
发明（设计）人：	董小社;袁坤;王龙翔;张兴军;王强;王宇菲	申请（专利权）人：	西安交通大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	徐文权
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	独立成分分析核密度估计虚拟样本样本概率密度函数训练样本原始样本概率密度函数估计机器学习模型系统运行训练机器准确度应用面去除引入缓解学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于独立成分分析和核密度估计的虚拟样本生成方法，本发明在系统运行初期，训练样本数量不足的情况下，利用核密度估计的方法，通过少量样本的概率密度函数估计样本整体的概率密度函数，当原始样本各属性之间存在相关性时先采用独立成分分析的方法去除原始样本各属性之间的相关性，再进行核密度估计，根据估计得到的概率密度函数生成虚拟样本。本发明可以缓解训练机器学习模型时训练样本不足的问题，提高机器学习模型的准确度。相较于其他虚拟样本生成方法，本发明引入了独立成分分析方法解决了样本各个属性间具有相关性的问题，从而拓宽了本发明的应用面。

技术领域

本发明属于计算机领域，具体涉及一种基于独立成分分析和核密度估计的虚拟样本生成方法。

背景技术

目前机器学习方法被越来越多地应用在各个领域之中。对于经典统计学所无法解决的问题，人们希望可以用机器学习的方法去解决。样本数量对机器学习方法的准确性影响很大。但是在很多情况下，由于受到采样时间和成本的限制，往往存在样本数量不足的问题。

虚拟样本生成技术最早由Niyogi等提出。王旭等将虚拟样本生成方法分为三类，基于先验知识、基于扰动以及基于研究领域的分布函数。虚拟样本生成技术被应用到能量预测模型的构建过程中，虚拟样本生成技术使能量预测模型的精度得到了显著的提升。Lee等人利用潜在信息函数生成虚拟样本，提升基于神经网络的需求预测模型性能。Arora等人通过经验公式生成虚拟样本，并利用带有虚拟样本的数据集成功构建了一个基于人工神经网络的计算模型，估算电池发热率。

现有的虚拟样本生成方法，主要针对属性间相互独立的样本，没有考虑样本属性间的相关性。

发明内容

本发明的目的在于克服上述不足，提供一种应用面更广、操作更简单的基于独立成分分析和核密度估计的虚拟样本生成方法，提高机器学习模型的准确率。

为了达到上述目的，本发明包括以下步骤：

步骤一，对原始样本数据进行独立成分分析，去除属性间的相关性，并判断分析结构是否收敛；

步骤二，若收敛，则对独立样本采用多核密度估计法估计概率密度函数，并取样；若不收敛，则对原始样本采用多核密度估计法估计概率密度函数，并取样；

步骤三，采用步骤一中独立成分分析的结果对步骤二中收敛取样的数据进行恢复相关性，使收敛取样后的数据映射回原始样本空间，得到虚拟样本；

步骤四，将虚拟样本与原始样本进行混合，得到最终的扩充的样本集。

当样本数据各个属性间存在相关性时，独立成分分析所得到的结果如下：

假设收集到少量样本为，

x＝(x₁,x₂,…,x_n),x∈Rⁿ

假设x是由n个相互独立的随机变量s经过线性变换后所得到的，则有，