[发明专利]分布式列子集选择方法、系统及白血病基因信息挖掘方法在审
申请号: | 202110350013.1 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113077843A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 肖正;魏鹏程 | 申请(专利权)人: | 湖南大学;邵东智能制造技术研究院有限公司 |
主分类号: | G16B35/20 | 分类号: | G16B35/20;G16B40/00;G16H50/70 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 子集 选择 方法 系统 白血病 基因 信息 挖掘 | ||
本发明公开了一种分布式列子集选择方法,包括获取数据集中全部的特征并处理和均匀分组到各计算节点;在每台计算节点上执行子集质量评估方法并得到对应的特征子集目标特征数;每台计算节点进行各自的特征选择计算得到每台计算节点所选择得到的特征;汇总各计算节点的特征选择计算结果得到最终选择到的特征。本发明还公开了一种基于所述分布式列子集选择方法的系统和基于该方法和系统的白血病基因信息挖掘方法。本发明有效避免了在子集中选择到冗余特征,也加速了特征选择过程;直接汇总选择出的特征作为最终选择结果,使得在理论上该方法至少能达到线性加速;精确性高,计算速度较快,可靠性更好;同时得到白血病的基因特征和白血病关联性。
技术领域
本发明属于大数据处理领域,具体涉及一种分布式列子集选择方法、系统及白血病基因信息挖掘方法。
背景技术
随着物联网,机器学习,计算机视觉和自然语言处理等新兴计算机应用的涌现,人们经常会遇到具有海量样本数和特征数的高维数据。处理这些高维数据,需要更多的计算和存储资源,往往无法使用单机进行处理,而且这些数据中的大部分特征可能是无用和多余的。因此,从高维数据中选择具有代表性的特征并服务于计算机应用,就成为了亟待解决的问题。因此,作为一种能有效地从原始特征集中选择代表性特征的方法,特征选择技术成为了近年来研究的重点。同时,挖掘白血病人基因信息,得到基因特征和白血病关联性是治疗白血病的重要途径。然而,由于基因序列的规模巨大和结构复杂,含有海量冗杂的特征信息,传统的单机版特征选择算法无法有效挖掘蕴含着基因中的有效信息。
列子集选择(Column Subset Selection,CSS)问题是特征选择研究中的核心子问题,也是一个约束低秩近似问题。具体来讲,CSS旨在从矩阵A中找到一个含最多k个列(即特征)子矩阵S,使得子矩阵S尽可能多的包含矩阵A中的信息。研究中,一般使用重建错误率来衡量这种包含能力,特征与列是等价的。
不同于其他低秩近似问题,例如SVD、PCA等,CSS更加灵活,解释性更强,计算效率更高。然而,目前已有的针对CSS问题的求解算法,其实践性均不强,也不适应于大规模数据集。例如,在2019年,冯等人提出了POCSS算法,取得了目前已知的最低重建错误率;然而,这种算法需要大量的迭代,非常耗时。再者,随着数据体积的爆炸式增长,研究分布式CSS算法变得尤为重要。
已有的分布式CSS算法属于两阶段的算法。具体来讲,在分布式算法中,目标变为从m个特征子集中选择出k个特征(m≥2),特征子集由原数据集划分得到;根据分布式两阶段CSS算法,在第一阶段中,根据算法从每个特征子集中选择出k个特征,然后在第二阶段中使用相同的算法从m*k个特征中选择k个特征作为最后的输出结果。
这种两阶段的分布式CSS算法有如下三个缺点:
1)由于划分后每个子集所含代表性特征数目不同,比如有的子集所包含的特征大部分都是冗余特征,从这些子集中选择到的特征可能对下一阶段的特征选择有不利影响,所以每个子集并不都值得从中选择k个特征;
2)对于数据集中k个最具代表性的特征(最优特征)会被划分到不同子集,每个子集含有的最优特征数必小于等于k,所以从每个子集中选择k个特征是多余的;
3)两阶段算法理论上达不到线性加速,所以在实践中这种算法计算非常耗时,实用性不强。
此外,两阶段算法假设所有子集具有相同的质量,这是造成以上不足的主要原因。实际上,子集之间的质量往往是不同的,忽略这种不同会导致时间和资源的浪费,甚至影响最后的特征选择的结果。因此,目前的面向列子集选择的分布式特征选择方法,依旧存在精确性不高、计算速度较慢和可靠性较差的问题。
发明内容
本发明的目的之一在于提供一种分布式列子集选择方法,该方法通过在分布式特征选择框架中融入子集质量评估方法,避免了子集中选择到冗余特征,加速了特征选择,而且可扩展性好,计算速度较快,可靠性更好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学;邵东智能制造技术研究院有限公司,未经湖南大学;邵东智能制造技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110350013.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种经皮椎弓根的病变椎体内植骨器械
- 下一篇:一种氢燃料电池浸水测试试验装置