[发明专利]基于图的特征排序和降维方法在审
| 申请号: | 202111063272.2 | 申请日: | 2021-09-10 |
| 公开(公告)号: | CN113780416A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 贺世达;邹权 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张换男 |
| 地址: | 324000 浙江省衢*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 排序 方法 | ||
1.基于图的特征排序和降维方法,其特征在于,所述方法具体包括以下步骤:
步骤一、读取待处理的数据文件;
步骤二、选择多种特征排序算法,再分别采用每一种特征排序算法对待处理数据文件进行处理,得到每一种特征排序算法对应的处理结果;
所述步骤二的具体过程为:
对于选择的某种特征排序算法,采用该特征排序算法计算待处理数据文件中每个特征的分数后,再根据分数由大到小对各特征进行排序,得到一个有序的列表,即得到了该特征排序算法对应的处理结果;
同理,分别得到每种特征排序算法对应的处理结果;
步骤三、采用随机删除机制对步骤二获得的各列表中的特征进行删减,获得经过删减的各列表;
步骤四、利用经过删减后的全部列表构成一张有向图,对于有向图中的任意两个特征对应的结点,若这两个特征在任意一个经过删减后的列表中存在相邻关系,则在有向图中,这两个特征对应的结点之间存在边,且边的方向是:由两个特征中分数低的特征对应的结点指向分数高的特征对应的结点;
步骤五、分别计算步骤四构成的有向图中每个特征的重要性分数,并根据重要性分数大小对特征进行重新排序;
步骤六、基于特征重新排序结果确定聚类的簇数;再对待处理数据文件中各特征的初始特征向量进行更新,得到各特征的最终特征向量;
基于确定的聚类簇数,对各特征的最终特征向量进行聚类,保留每类中的首位特征作为降维后的特征。
2.根据权利要求1所述的基于图的特征排序和降维方法,其特征在于,所述步骤一中,读取的待处理数据文件为特征提取后的蛋白质序列数据、基因序列数据或医学图像。
3.根据权利要求2所述的基于图的特征排序和降维方法,其特征在于,所述步骤一中,读取的待处理数据文件的格式为ARFF、LibSVM或CSV。
4.根据权利要求1所述的基于图的特征排序和降维方法,其特征在于,所述多种特征排序算法包括最大相关最小冗余法、最大相关最大距离法、套索法、岭回归法、逻辑回归法、互信息法、方差分析法、递归式特征选择法、卡方法、F值法、树的特征重要性法、最大互信息系数法和均值互信息法。
5.根据权利要求4所述的基于图的特征排序和降维方法,其特征在于,所述步骤三中,采用随机删除机制对步骤二获得的各列表中的特征进行删减,每个特征被删除的概率为:
在某个列表中,第i个特征被删除的概率Pi为:
其中,w2为常数,x′i为对第i个特征的索引进行缩放的结果;
其中,xi,index为第i个特征对应的索引值,maxindex为列表中特征的最大索引值,w1为权重系数;
列表中分数越低的特征被删除的概率越大。
6.根据权利要求5所述的基于图的特征排序和降维方法,其特征在于,所述w2的取值为7/11,所述w1的取值为10。
7.根据权利要求6所述的基于图的特征排序和降维方法,其特征在于,所述步骤五的具体过程为:
其中,Numtotal为列表中总特征的个数,Numsave为第i个特征在各个列表结果中保留的个数,Numdelete为第i个特征在各个列表结果中删除的个数,xi为中间变量;
其中,e代表自然对数的底数,R0i为第i个特征的重要性分数,j代表第j个特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111063272.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地质勘探沉降监测装置及调节方法
- 下一篇:一种离线蓝牙电子锁系统





