[发明专利]基于元图学习的长链非编码RNA亚细胞定位预测方法在审
申请号: | 202210064104.3 | 申请日: | 2022-01-20 |
公开(公告)号: | CN115295079A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 蔡俊哲;刘琳;唐麟 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 昆明顺新图盛专利代理事务所(特殊普通合伙) 53213 | 代理人: | 廖萍;李凤仙 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 长链非 编码 rna 细胞 定位 预测 方法 | ||
本发明公开了一种基于元图学习的长链非编码RNA亚细胞定位预测方法包括以下5步骤:构建lncRNA亚细胞定位预测训练数据集;平衡数据集中不同类别之间样本的数量;将数据集中的向量数据构建成图结构;使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测;评价指标。本发明除了利用lncRNA的序列信息,还能够通过GCN自动捕获lncRNA序列之间的关联信息。利用MAML的训练方式,能够从若干个任务中提取出元参数让分类器快速学会对其它相似任务的分类能力,有效地解决了在以往技术中用深度学习预测lncRNA亚细胞定位准确率不高的问题。在10折交叉验证实验中,我们方法在4分类和5分类数据集中准确率达到了94.2%和93.4%,优于同类别算法。
技术领域
本发明涉及生物信息学领域,特别是基于元图学习的长链非编码RNA亚细胞定位预测方法。
背景技术
人类基因组中有超过98%的基因序列不能编码成蛋白质,这些基因序列被称作非编码DNA,而大量非编码DNA会被转录为无编码蛋白能力的RNA,这些不能编码蛋白的RNA被称为非编码RNA(ncRNA)。ncRNA根据其分子链长度进一步可以划分为两类:分子链长度小于200个核苷酸的短链非编码RNA(sncRNA)和分子链长度超过200个核苷酸的长链非编码RNA(lncRNA)。在过去的一段时间,lncRNAs最初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而,越来越多的研究表明lncRNA参与了很多生物功能。另外,lncRNAs的异常行为导致多种癌症的形成比如阿尔茨海默病、亨廷顿病和心血管疾病等。如果我们对lncRNA的功能有更好了解,将促进我们对特定细胞的细胞发育和生理的理解,且多项研究表明,它高度依赖于lncRNA在细胞内的位置。所以,识别lncRNA亚细胞位置非常重要。
目前lncRNA亚细胞定位相关的数据库主要有:RNALocate、LncATLAS和lnncsldb。关于预测lncRNA亚细胞定位的实验方法,主要有两种。一种是生化实验,这种实验的优势是定位结果十分精确,但同时也有耗时、昂贵的劣势;所以近十年来越来越多的研究人员尝试用第二种方法(生物信息方法)寻找突破口,后者有着省时、效率高、稳定的优势。目前,使用生物信息方法对蛋白质的亚细胞定位进行预测,已经能够达到较高的准确率。受此启发,近三年已经开始有研究人员使用生物信息方法对lncRNA亚细胞定位进行预测。比如Zhen C等人在《a subcellular localization predictor for long non-coding RNAs based on astacked ensemble classifier》提出了lncLocator,用堆叠集成的方式将4个分类器整合到一起,进而预测lncRNA的亚细胞位置;还有Su等人在《predict the subcellularlocation of lncRNAs by incorporating octamer composition into general PseKNC》提出了iLoc-lncRNA;Aa A等人在《Subcellular localization of long non-coding RNAsusing nucleotide compositions》提出了Locate-R;Xiao-Fei Yang等人在《PredictingLncRNA Subcellular Localization Using Unbalanced Pseudo-kNucleotideComposition》的论文;Gudenas等人在《Prediction of LncRNA SubcellularLocalization with Deep Learning from Sequence Features》提出了DeepLncRNA;Yang等人在《a cell-line-specific subcellular localization predictor for long non-coding RNAs with interpretable deep learning,Bioinformatics》提出了lncLocator2.0;Fan等人在《Predicting LncRNA Subcellular Localization Using MultipleSequence Feature Information》提出了lncLocPred。这些分类器所用的方法主要分两种:传统机器学习和深度学习。其中,传统机器学习的方法相较于能够自动提取高级特征的深度学习来说并没有优势。然而,目前构建的lncRNA数据集的数据量比较少,导致深度学习的效果反而没有传统机器学习的效果好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210064104.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:经鼻腔进入血循环的给药装置及其应用方法
- 下一篇:一种车用安全通道