[发明专利]一种基于粒子群优化的酵母菌多标记特征选择方法及装置在审
申请号: | 201810380973.0 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108805162A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 孙林;郑瑞丽;张倩倩;申陈海;靳瑞霞;刘艳;王蓝莹;殷腾宇;赵婧;秦小营;王学敏 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 符亚飞 |
地址: | 453007 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 酵母菌 特征子集 粒子群优化 特征选择 多标记 计算复杂度 时间复杂度 适应度函数 分类性能 候选特征 离散粒子 评价准则 数据集中 分类器 冗余性 子集 | ||
本发明涉及一种基于粒子群优化的酵母菌多标记特征选择方法及装置,通过酵母菌特征和标记之间的相关性、特征和特征之间的冗余性、标记和标记之间的相关性构造候选特征子集的评价准则函数,将其作为离散粒子群方法的适应度函数,从而从酵母菌数据集中选择出最优的特征子集。本发明不仅可以有效的选取特征子集,为后续工作提供了一个精简、准确的特征子集,而且,有效降低了分类器的时间复杂度和计算复杂度,提高了分类性能。
技术领域
本发明属于数据处理技术领域,具体涉及一种基于粒子群优化的酵母菌多标记特征选择方法及装置。
背景技术
在传统的监督学习框架中,每个学习对象有且仅有一个类别标记,且标记之间是相互排斥和独立的。例如,在性别分类预测问题中,只存在“性别”一个标记,并且标记值要么是“男”要么是“女”,不存在标记值重叠的情况。然而在现实生活中单独的一个标记无法准确的描述复杂的对象,一个对象可能与多个类别标记相关,标记之间也可能存在相关性。例如,在文本分类中,一篇题为“杨树安谈奥运筹备”的新闻报道可以被分类到“体育”、“交通”、“气候”、“经济”和“政治”的板块中;在图像分类中,一副图像,可能与“沙滩”、“大海”、“椰子树”等多个语义标记有关;此外,在音乐情感分析中,根据表达的情感的不同,一首歌可以同时具有“欢快”、“忧伤”、“乡愁”等标记。拥有多个标记的对象在生活中随处可见,因此近年来多标记分类引起了人们的广泛研究和关注。
生物信息学是多标记学习应用较广的领域。酵母啤酒细胞周期表达水平数据是一个常用的多标记学习数据,也是一个典型的生物信息学任务,其任务是预测这些酵母菌与14个功能目录中的标记是否相关。在该类应用中,标记之间往往存在一定的层次结构并且已经被领域专家发现,比如树状结构的功能目录以及有向无环图结构的基因拓扑结构等,因此,在应用多标记学习技术时需要很好的利用这些标记之间的关系。
酵母菌功能预测存在一系列的挑战:一方面每个酵母菌样本可能的类别标记很多,并且这些标记之间具有一定的相关性,因此在多标记学习中需要考虑标记之间的相关性;另一方面,由于酵母菌数据都是有高维的基因序列描述的,因此酵母菌样本具有数量大和向量维数高的两大特点,决定了酵母菌特征选择是一个运行时间和空间复杂度都很高的机器学习问题,这些数据过高的维度影响并制约着我们对数据的理解和建模。在现有技术中,已出现一些酵母菌数据的特征选择方法。例如,一些以预报风险的嵌入式特征选择方法为基础,通过对每个特征进行评价,最终获得最优特征子集。该方法与分类器和评价指标密切相关,很可能导致计算时间较长、降维效率低。
发明内容
本发明的目的在于提供一种基于粒子群优化的酵母菌多标记特征选择方法及装置,用以解决现有技术中的特征选择方法的计算时间长、效率低的问题。
为解决上述技术问题,本发明的技术方案为:
本发明提供了一种基于粒子群优化的酵母菌多标记特征选择方法,包括如下步骤:
提取酵母菌样本数据集,所述酵母菌样本数据集包括多个酵母菌样本特征矩阵和样本标记矩阵;
提取酵母菌样本数据集的特征数据,初始化二进制编码的粒子群;并初始化粒子群的位置和速度;
通过度量特征与特征之间的冗余性、特征与标记之间的相关性、标记和标记之间的相关性,构造结合标记相关性的CFS评价准则函数;
根据所述结合标记相关性的CFS评价函数,计算每个粒子的适应值;
对每个粒子,将其计算的适应值与其经历过的最优位置pbest进行比较,若优于经历过的最优位置pbest,则将所述计算的适应值作为其经历过的最优位置pbest;
并将所有粒子的最优位置pbest作为群体的最优位置gbest;
更新粒子的位置和速度进行迭代,最终得到的群体的最优位置gbest中值为1所对应的特征,即为酵母菌数据集的最优特征子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810380973.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多嵌入率含密图像的隐写检测方法
- 下一篇:一种标注任务拆解方法及系统