[发明专利]基于线性判别分析与多元自适应样条的数据分类方法在审
| 申请号: | 201910357895.7 | 申请日: | 2019-04-30 |
| 公开(公告)号: | CN110097117A | 公开(公告)日: | 2019-08-06 |
| 发明(设计)人: | 李智慧;王帅;刘咏梅 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 样条 线性判别分析 分类 数据分类 感知机 非线性分类 递归分割 分段线性 分类特征 分类问题 分类误差 区间分割 输入变量 多输出 训练集 回归 降维 算法 预测 | ||
本发明公开了一种基于线性判别分析与多元自适应样条的数据分类方法,本发明是一种将降维与分类相结合的方法,首先通过线性判别分析方法确定最有效的分类特征,然后通过多元自适应回归样条(Multivariate adaptive regression splines,MARS)实现输入变量区间分割,将非线性分类转为线性分类问题,最后通过感知机实现分类,本发明实现了多输出分段线性分类,通过多元自适应回归样条的方式实现递归分割,通过感知机方式实现线性分类使得训练集的分类误差最小,预测时间在毫秒级以下,该算法有快速准确的特点。
技术领域
本发明涉及一种数据分类方法,特别是一种基于线性判别分析与多元自适应样条的数据分类方法,属于机器学习中的数据降维与分类领域。
背景技术
机器学习中的数据降维与分类技术是人工智能的核心技术,有广泛的应用。传统的分类算法中,支持向量机(Support Vector Machine,SVM)、决策树(随机森林)和深度学习有最好的分类效果。支持向量机与决策树需要提取特征,其分类性能取决于特征的有效性,支持向量机利用内积核函数代替向高维空间的非线性映射,但它对大规模训练样本难以实施,当样本很大时,对数据的计算将耗费大量的内存和时间,并且对核函数的求解还没有找到合适的方法。决策树适合高维数据,计算量相对较小,且容易转化成分类规则,但对于各类样本数量不一致的数据,信息增益偏向于那些更多数值的特征,很容易过拟合,忽略属性之间的相关性。深度学习是目前性能最好的分类器,它让计算机自动学习出模式特征,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性,但深度学习不能够对数据的规律进行无偏差的估计,为了达到更好的精度,需要大量的训练样本和极大的硬件支持。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种将降维与分类相结合的、快速准确的基于线性判别分析与多元自适应样条的数据分类方法。
为解决上述技术问题,本发明一种基于线性判别分析与多元自适应样条的分类方法,包括以下步骤:
步骤一:对训练样本集中的待分类的M维向量xo进行线性判别分析,得到降维后的向量x,设置降维后的维数为d,具体为:
步骤1:计算类内散度矩阵Sw:
其中,μj为第j类样本的均值向量,μ为所有样本的均值向量,k为类别数,Xj为第j类样本集;
步骤2:计算类间散度矩阵Sb:
其中,Nj(j=1,2,…,k)为第j类样本的个数;
步骤3:计算矩阵Sw-1Sb;
步骤4:通过矩阵相似对角化计算Sw-1Sb的最大的d个特征值和对应的d个特征向量(w1,w2,…,wd),得到投影矩阵W,W=[w1,w2,…,wd],W为M行d列矩阵;
步骤5:对训练样本集中的每一个样本特征xo,转化新的样本x=WTxo,x即为降成d维的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910357895.7/2.html,转载请声明来源钻瓜专利网。





