[发明专利]基于滑窗稀疏卷积去噪自编码器的缺失标记填充方法在审
申请号: | 202210384234.5 | 申请日: | 2022-04-13 |
公开(公告)号: | CN114864004A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 刘毅;王欣 | 申请(专利权)人: | 扬州大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 225000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 稀疏 卷积 编码器 缺失 标记 填充 方法 | ||
本发明提出了一种基于滑窗稀疏卷积去噪自编码器的缺失标记填充方法,首先将已知基因数据进行数值转换和独热编码,划分训练集和验证集,继而搭建稀疏卷积神经网络模型,在基因序列上采用分段滑窗的方式进行缺失标记的填充,通过窗的重叠,获取数据特征较为充足的中心区域预测结果并进行拼接,边缘区域的填充结果则会被舍弃。然后计算缺失标记的填充精度,依据前期训练的反馈结果调整神经网络的超参数。实际应用中,对玉米和水稻等多个物种的基因填充结果表明,本发明方法填充精度显著高于KNN和SVD等传统算法。该方法不仅填充精度高,而且具有模型结构简单,训练效率高的优点,在基因序列分析领域具有广阔的应用前景。
技术领域
本发明属于计算机和生物信息学技术领域,具体涉及基于滑窗稀疏卷积去噪自编码器的缺失标记填充方法。
背景技术
基因型填充是人类和动植物基因组序列分析的关键环节,可用于全基因组关联分析和全基因组预测。基因测序数据中普遍存在大量的缺失,这是由多种原因造成的,包括低呼叫率、偏离哈迪-温伯格平衡,以及样本中存在罕见或低频变异等。基因型填充的工作原理是通过计算推断基因型分布中的缺失值,通常使用未分型变体和基因型附近标记的相关性或连锁信息。基因型被填充的遗传变异主要是单核苷酸多态性(SNP),其他类型的遗传变异只要与SNP变异处于连锁不平衡(LD)状态,就可以填充。
已有的填充方法分为需要参考面板和免参考模板两类。第一类方法,需要使用样本的单倍型信息,这些样本拥有相同或相似的群体背景,但是很多时候这一条件难以满足。另一类是免参考面板的缺失标记填充方法,包括行平均法,KNN等基于距离或相似性的方法,奇异值分解(SVD),以及基于稀疏卷积去噪自编码器的算法(SCDA)等。行平均法是最简单的方法之一,它使用所有非缺失标记的平均值或者同一位点中出现频率最高的值来代替缺失值。基于距离或相似性的方法通常利用与缺失标记相似或接近的数据来推断缺失值,但是无论是KNN算法还是SVD亦或是SCDA,都无法对基因组序列上的局部连锁信息进行有效的学习。
深度学习在机器视觉和生物信息等应用中已经展示出巨大的功效。在很多领域,自动编码器能够有效解决数据缺失问题。一个例子是基于多层感知器的去噪自动编码器方法[Duan,Y.;Lv,Y.;Liu,Y.L.;Wang,F.Y.An efficient realization of deep learningfor traffic data imputation.T ransp.Res.Part C Emerg.T echnol.2016,72,168–181.DOI:10.1016/j.trc.2016.09.015]用于交通数据,其性能与SVD方法相当。文章[Beaulieu-Jones,B.K.;Moore,J.H.Missing data imputation in the electronichealth record using deeply learned autoencoders.Pac.Symp.Biocomput.2017,22,207-218.DOI:10.1142/9789813207813_0021]应用于应用于插补电子健康记录,使用集合资源开放存取ALS临床试验数据库(PRO-ACT)比较了流行的多重填充策略与深度学习自动编码器的有效性。编码数据相关性的一种有效技术是使用卷积网络,它可以通过利用卷积核来学习基因型数据中的底层结构和关系,卷积核能够在过滤窗口中学习各种局部模式。生物基因组序列上各区段的标记之间有着不同的连锁特征,且标记之间的距离越近,连锁强度越大。如果仅使用一般的去噪自编码器,对染色体上大量的标记进行编码和建模,会产生维度灾难和过拟合等问题,从而无法有效利用近距离标记之间的紧密连锁关系。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210384234.5/2.html,转载请声明来源钻瓜专利网。