[发明专利]基于非负矩阵分解和可视化技术的多分类特征选择方法在审
申请号: | 201811135464.8 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109492663A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 梁霖;牛奔;刘飞;山磊;何康康;徐光华 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 贺建斌 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于非负矩阵分解和可视化技术的多分类特征选择方法,先提取待处理的数据集,进行非负化、归一化处理,然后进行数据可视化分析,分析数据集中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数,对数据集采用最小二乘迭代算法进行非负矩阵分解,计算权值矩阵,对基矩阵和权值矩阵进行热图可视化表达,观察权值矩阵的特征聚类情况,通过调节热图阈值控制分类特征个数最少,在热图中采用显著表达原理从权值矩阵每一行中选择一个分类特征;对选择出的分类特征做并集运算,得到最终的分类特征集合,本发明结合了非负矩阵分解结果的物理意义及热图形象直观的优点,在数据降维的同时,保证了所选特征子集的分类精度。 | ||
搜索关键词: | 分类特征 非负矩阵 分解 权值矩阵 可视化技术 数据集 矩阵 归一化处理 数据可视化 迭代算法 分析数据 嵌入维数 数据降维 特征聚类 特征子集 物理意义 最小二乘 阈值控制 基矩阵 可视化 并集 低维 运算 集合 直观 分类 观察 分析 保证 | ||
【主权项】:
1.一种基于非负矩阵分解和可视化技术的多分类特征选择方法,其特征在于,包括以下步骤:1)提取待处理的数据集Pm×n,数据集Pm×n的行m代表着样本,列n代表着原始特征;2)将数据集Pm×n进行非负化、归一化处理,
式中:i=1,2,...,m;j=1,2,...,n,maxPkj为列向量Pj的最大值;minPkj为列向量Pj的最小值;3)对归一化后的数据集Pm×n进行数据可视化分析,初步分析数据集Pm×n中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数r;4)根据低维嵌入维数r,对数据集Pm×n采用最小二乘迭代算法进行非负矩阵分解,即P=WH;随机初始化W和H,非负矩阵分解得到基矩阵W和系数矩阵H,迭代规则如下:W←[PHT(HHT)‑1]+ (2)H←[(WTW)‑1WTP]+ (3)式中:W为数据集P非负矩阵分解得到的基矩阵,WT表示基矩阵W的转置,H为数据集P非负矩阵分解得到的系数矩阵,HT表示系数矩阵H的转置;5)计算权值矩阵K,即系数矩阵H的伪逆矩阵,K=|H‑1| (4)式中:H为数据集P非负矩阵分解得到的系数矩阵,K表示系数矩阵H计算得到的伪逆矩阵;6)对基矩阵W和权值矩阵K进行热图可视化表达,基矩阵W的行对应着样本,权值矩阵K的列对应着原始特征;7)观察权值矩阵K的特征聚类情况,通过调节热图阈值控制分类特征个数最少,若权值矩阵K的分类特征个数不超过5个,则进行步骤8),否则重新选择低维嵌入维数r,返回步骤3);8)在热图中采用显著表达原理从权值矩阵K每一行中选择一个分类特征Fi;9)对步骤8)中选择出的分类特征Fi做并集运算,得到最终的分类特征集合F,F=F1∪F2∪…∪Fi(i=1,2,...,r) (5)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811135464.8/,转载请声明来源钻瓜专利网。