[发明专利]基于联合约束非负矩阵分解的差异表达基因辨识方法有效
申请号: | 201710232798.6 | 申请日: | 2017-04-11 |
公开(公告)号: | CN107016261B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 代凌云;刘金星;郑春厚 | 申请(专利权)人: | 曲阜师范大学 |
主分类号: | G16B25/00 | 分类号: | G16B25/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 273165 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联合 约束 矩阵 分解 差异 表达 基因 辨识 方法 | ||
本发明公开一种基于联合约束非负矩阵分解的差异表达基因辨识方法。1.用非负矩阵X表示癌症基因表达数据集;2.构造对角矩阵Q和元素全1矩阵E;3.在经典的非负矩阵分解方法中引入流形学习,对系数矩阵G施加正交约束稀疏和约束,得到联合约束非负矩阵分解目标函数;4.求解此目标函数,得到基矩阵F和系数矩阵G的迭代公式;5.对非负数据集X进行半监督非负矩阵分解,迭代收敛后得到基矩阵F和系数矩阵G;6.根据基矩阵F得到评估向量对评估向量中的元素从大到小进行排序,得到差异表达基因;7.通过GO工具对辨识的差异表达基因进行检测分析。本发明能够有效提取癌症数据集中的差异表达基因,能用于发现人类疾病基因数据库中的差异特征,对癌症的早期诊断和针对性治疗有重要的临床意义。
技术领域
本发明公开一种基于联合约束非负矩阵分解的差异表达基因辨识方法,属于模式识别技术领域,可用于辨识癌症差异表达基因,为癌症的早期诊断治疗提供依据。
背景技术
近年来癌症发病率逐年增加,早期诊断率低,死亡率高,发病机制非常复杂。挖掘发现癌症基因表达数据中所包含的相关信息有助于人们深入了解疾病相关表达基因及其调控网络。
随着深度测序技术和基因芯片技术的快速发展,产生了大规模的基因表达谱数据,其中只有少数基因跟细胞癌变有关。很多情况下原始的基因表达谱数据为高维小样本的数值矩阵,因此如何从大量的基因数据中剔除冗余基因,辨识出人类癌症基因表达数据中代表样本属性的差异表达基因成为疾病诊断治疗的重要依据。这就需要解释能力强、高效的矩阵分解方法,目前有很多数据分析方法用于基因表达数据的处理,如主成分分析、奇异值分解等,但效果并不十分理想。例如:尽管原始的基因表达数据是非负的,但是传统的降维方法不能保证因子矩阵元素也是非负的,这就使低秩因子矩阵的生物学解释复杂化。著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung提出的非负矩阵分解(Non-negative Matrix Factorization,NMF)算法。NMF算法为人类处理大规模数据提供了一种新的途径,通过对因子矩阵施加非负约束,用一个包含所有基因信息的低秩矩阵来近似表示原始的基因表达数据矩阵,能够实现矩阵维数削减和大规模数据压缩。NMF算法是一种优化机制,能够利用局部特征表达整体特性,为数据的处理提供了一条新的思路,能够得到基于部分的表达,分解结果直观,容易从物理上解释。在生物信息学领域,可以利用分解结果的局部特征来选择DNA阵列中的差异表达基因。
但是非负矩阵分解方法仍然存在改进的空间,例如:由于非负矩阵分解在处理基因表达数据过程中缺乏稀疏性,使其在差异表达特征选择方面没有优势;人类癌症基因表达数据中通常包含一些异常值和噪声,传统的非负矩阵分解方法不能有效的处理异常值和噪声的影响。
发明内容
发明目的:针对已有非负矩阵分解方法的不足,提出了一种联合约束非负矩阵分解的差异表达基因辨识方法,来保证数据降维之后仍然能保持原始数据内在的几何结构,使分解得到的基矩阵更加稀疏,减小了原始基因表达数据中异常值和噪声的影响,提高了算法的鲁棒性,从而更加准确的从癌症基因表达数据集中辨识差异表达基因。
技术思路:受非负矩阵分解及其改进方法启发,首先在目标函数中引入图正则约束,稀疏约束,正交约束得到更加稀疏合理的数据表达;其次利用L2,1范数约束误差函数,提高算法的鲁棒性,最终形成联合约束非负矩阵分解的目标函数。对该目标函数进行优化求解,得到基矩阵和系数矩阵的迭代准则。然后利用这种新的非负矩阵分解方法来辨识癌症数据集中的差异表达基因。实现方案如下:
一种基于联合约束非负矩阵分解的差异表达基因辨识方法,其特征在于包括如下步骤:
(1)将癌症数据集中的数据进行预处理,表示为非负矩阵其中xj表示第j个样本的表达基因构成的列向量,R+表示正实数集合,p表示矩阵X中基因的个数,n表示矩阵X中样本的个数,将X中的所有元素都归一化到(0,1)上;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曲阜师范大学,未经曲阜师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710232798.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液体喷出装置以及液体喷出方法
- 下一篇:液体喷出装置以及液体喷出系统