[发明专利]一种端到端的基于深度学习的ncRNA家族识别方法在审

专利信息
申请号: 201910852568.9 申请日: 2019-09-10
公开(公告)号: CN110600081A 公开(公告)日: 2019-12-20
发明(设计)人: 刘元宁;王林宇;钟晓丹;刘海明;张浩;郑少阁 申请(专利权)人: 吉林大学
主分类号: G16B30/10 分类号: G16B30/10;G16B40/00;G06N3/04;G06N3/08
代理公司: 22212 长春市恒誉专利代理事务所(普通合伙) 代理人: 鞠传龙
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种端到端的基于深度学习的ncRNA家族识别方法,其方法分为三部分:模型设计、模型训练以及装置设计和模型测试,各部分主要步骤为:第一步、模型设计;第二步、模型训练及装置设计;第三步、模型测试。本发明的有益效果:本发明提供了一种端到端的基于深度学习的ncRNA家族识别方法,该方法的新颖之处在于可以直接利用深度学习提取ncRNA序列特征来识别ncRNA家族,而不需要基于ncRNA二级结构预测工具的二级结构特征。不同于其他方法,我们的方法避免了由于ncRNA二级结构预测工具准确率比较低,而对精确地识别ncRNA家族带来不利的影响。因此,我们的方法不仅简化了操作步骤,使得ncRNA家族识别更加简便,更提高了识别精度。
搜索关键词: 二级结构预测 模型测试 模型设计 模型训练 装置设计 二级结构特征 序列特征 准确率 学习
【主权项】:
1.一种端到端的基于深度学习的ncRNA家族识别方法,其特征在于:其方法如下所述:/n所述方法分为三部分:模型设计、模型训练以及装置设计和模型测试,各部分主要步骤如下:/n第一步、模型设计:/n1)、深度学习包括三种网络模型:即全连接神经网络、卷积神经网络以及循环神经网络,其中全连接神经网络适用于所有数据,因其节点过多导致其时间和空间复杂度偏高,卷积神经网络适用于二维数据,循环神经网络能够记录上下文的信息适用于文本类数据;/n2)、由于处理好的ncRNA数据是文本类数据,因此采用三层双向LSTM作为编码器,三层双向LSTM为循环神经网络的一种类型,将ncRNA数据中的每个碱基结合其上下文编码为数据格式相同的矩阵;/n3)、注意力机制源于对人脑注意力特性的模拟,其核心思想是将更多的注意力放在有用的输入信息上,而较少地放在其他信息上,从而改变对外界信息的关注,忽略无关信息,放大期望信息,从而大大提高了集中注意区域信息的接收灵敏度和处理速度,相同家族的ncRNA序列有相似的序列种子,只需将模型的注意力放在这些种子序列上即可对ncRNA进行分类,因此添加一次注意力机制;/n4)、设置一个三层全连接神经网络作为解码器,将上述2)和3)两步中的输出结果解码为输入数据对应的类别;/n第二步、模型训练及装置设计:/n1)、需要输入和显示输出数据,选择一台PC电脑作为上位机用于输入数据和显示识别结果,另外还需要读取、存储、处理以及计算输入的数据,使用ARM9微处理器连接一个1080TI的用于计算的显卡作为处理与计算部分的装置;/n2)、ARM9微处理器02由接口部分0210、存储单元0220及处理单元0230构成,其中接口部分0210包括:USB接口0211、JTAG调试接口0212、以太网接口0213及RS-232串口0214;其中USB接口0211可与U盘连接,实现将ncRNA识别得到的结果数据的转存,以此实现存储单元的扩增;JTAG调试接口0212通过JTAG仿真编程器转换设备与上位机JTAG接口0122相连,用来实现程序的在线调试,以太网接口0214,通过此接口与上位机01的以太网接口0123进行连接,从而实现ARM9微处理器02与上位机01的互通信;RS-232串口0214,通过此接口与上位机01的RS-232串口0124进行连接,从而实现ARM9微处理器02与上位机01的互通信;存储单元0220包括:内存储单元0222、缓存单元0223及外存储单元0221;内存储单元0222,与缓存单元0223进行连接,负责完成ncRNA初始数据及中间数据的存储;缓存单元0223,与内存储单元0222及预处理单元0231进行连接,负责完成ncRNA家族识别初始数据的存储;外存储单元0221,与最优结构获取单元0234进行连接,负责完成ncRNA家族识别结果数据的存储;预处理单元0231与缓存单元0223连接,负责获取缓存单元0223中ncRNA数据读入及数据预处工作;深度学习单元0232是微处理器连接的一块1080Ti显卡,主要负责深度学习部分的计算工作;/n3)、上位机01由输入单元0111,接口部分012的USB接口0121、JTAG调试接口0122、以太网接口0123和RS-232串口0124,显示单元0131共同构成来完成与ARM9微处理器02的协调工作;其中输入单元0111,与接口部分012连接,负责完成ncRNA序列的输入;接口部分012负责与ARM9微处理器02进行连接通信;显示单元0131,与接口部分012连接,负责完成ncRNA家族识别结果的输出显示;/n4)、通过上位机的输入单元输入ncRNA序列和其对应的家族标签,并通过RS-232串口传至ncRNA家族识别装置的内存储单元,并进一步将数据读到缓存单元中;/n5)、预处理单元从缓存单元中读取ncRNA信息,首先将长度大于400的数据从头截断为长度为400的序列,将长度小于400的序列填充N到长度为400并将其存储在缓存单元中,然后将每条数据转化为400×8的矩阵,转化规则为A-10000010,U-00101000,C-00010100,G-01000001,N-00000000并将其存储在缓存单元中;/n6)、深度学习单元从缓存单元中随机按批次读取ncRNA和标签数据,对已设计好的算法模型进行训练学习;/n第三步、模型测试:/n1)、通过上位机的输入单元输入ncRNA序列,并通过RS-232串口传至ncRNA家族识别装置的内存储单元,并进一步将数据读到缓存单元中;/n2)、预处理单元从缓存单元中读取ncRNA信息,首先将长度大于400的数据从头截断为长度为400的序列,将长度小于400的序列填充N到长度为400并将其存储在缓存单元中,然后将每条数据转化为400*8的矩阵,转化规则为A-10000010,U-00101000,C-00010100,G-01000001,N-00000000并将其存储在缓存单元中;/n3)、将处理好的ncRNA数据输入到深度学习方法中对其进行家族识别预测并将预测结果传回到上位机的显示单元上进行输出显示并存储在外存储单元中。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910852568.9/,转载请声明来源钻瓜专利网。

同类专利
  • 基于蛋白质序列功能区域的癌症驱动识别-201910991325.3
  • 卢新国;袁玥;王新宇;丁莉;高妍 - 湖南大学
  • 2019-10-18 - 2020-02-11 - G16B30/10
  • 癌症驱动因素的识别是解释癌症发生机制和实现精准医疗的关键挑战。根据单个突变位点或整个基因来识别癌症驱动因素的方法有很多。但是它们忽略了大量中等大小的功能元素。假设在蛋白质序列的不同区域发生的突变对癌症的进展有不同的影响。在此,我们开发了一种基于贝叶斯概率和多元线性回归模型的新的功能驱动区域(frDriver)识别方法,来识别能够调控基因表达水平和具有高功能影响潜力的蛋白区域。结合基因表达数据和体细胞突变数据,结合功能影响评分(SIFT,PROVEAN)作为先验知识,我们确定了预测基因表达水平最准确的癌症驱动区域。我们评估了frDriver在TCGA的BRCA和GBM数据集上的性能。结果表明,frDriver识别出已知的癌症驱动因素,并优于其他三种最先进的方法(eDriver、ActiveDriver和OncodriveCLUST)。
  • 基于约束概率矩阵分解方法预测miRNA与疾病的潜在关联-201910997340.9
  • 卢新国;陈关元;朱正浩;李金鑫;丁莉 - 湖南大学
  • 2019-10-18 - 2020-02-11 - G16B30/10
  • 本发明涉及及生物信息学中的数据挖掘,特别是涉及对疾病生物信息学数据和miRNA基因数据的挖掘。具体涉及通过对miRNA和疾病生物信息的数据挖掘预测miRNA与疾病的潜在关联。本发明的方法包括对miRNA和疾病关联数据的处理;对疾病相似性的分析;对miRNA相似性的分析;学习基于领域的miRNA与疾病的关联;对疾病相关miRNA的约束概率矩阵分解;对miRNA与疾病潜在关联的预测。本发明可用于预测miRNA与疾病的潜在关联,检测出与疾病相关联的潜在miRNA。
  • 一种针对大数据基因组比对文件排序的并行加速方法-201911008972.4
  • 张中海;谭光明;张春明;姚二林 - 中国科学院计算技术研究所
  • 2019-10-23 - 2020-02-07 - G16B30/10
  • 本发明公开了一种针对大数据基因组比对文件排序的并行加速方法,包括以下步骤:对目标BAM文件进行读取和解压,并存入连续的第一缓冲区B;每当第一缓冲区B存满后,进行多线程排序并通过堆排序进行归并形成一个中间文件;依次对所述中间文件进行读取,放入关联的第二缓冲区MB,对每个第二缓冲区MB的数据通过堆排序进行归并;将归并的数据通过多个线程进行压缩处理,写入结果文件。本发明通过为读取和解压单独分配线程,分别为解压和压缩构建线程池,减少开辟的线程数量,充分利用多线程资源,提高文件读写效率,减少中间文件的数量,减小内存拷贝操作次数,实现处理时间的缩短。
  • 新抗原的鉴别、制造及使用-201880037822.3
  • B·布里克-沙利文;R·耶冷斯凯;J·巴斯比;A·德里蒂 - 磨石肿瘤生物技术公司
  • 2018-06-08 - 2020-01-21 - G16B30/10
  • 本文公开了一种用于确定如基于个体的肿瘤突变确定的等位基因、新抗原及疫苗组合物的系统和方法。还公开了用于从肿瘤获得高质量测序数据的系统和方法。此外,本文也描述了用于在多态性基因组数据中鉴别体细胞变化的系统和方法。此外,本文描述了用于选择进行治疗的患者子集的系统和方法。基于为患者鉴别的一种或多种新抗原候选物,为每个患者确定指示肿瘤细胞表面呈递的新抗原的估计数目的效用分数。基于确定的效用分数选择患者子集。选定的患者子集可以接受治疗,例如新抗原疫苗或检查点抑制剂治疗。最后,本文描述了独特的癌症疫苗。
  • 一种基于云架构平台的基因数据分析方法-201910931181.2
  • 阚苏立;陶德晶;卢清瑶 - 江苏医健大数据保护与开发有限公司
  • 2019-09-29 - 2020-01-03 - G16B30/10
  • 本发明涉及基因数据分析技术领域,具体地说,涉及一种基于云架构平台的基因数据分析方法。其方法步骤如下:建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;优化基因序列区域,对基因序列区域进行全局和局部优化;基于流形学习算法对基因序列数据进行挖掘;该基于云架构平台的基因数据分析方法中,以云架构平台为框架,将基因序列数据存储于基因数据库内,形成了不再单一的大数据,提高数据处理的效率,通过全局优化模块和局部优化模块,实现基因序列的对比和拼接,基于流形学习算法对基因序列数据进行挖掘,便于提取序列数据中的重要数据。
  • 基于相似基因比例的基因家族关系判定方法-201710229350.9
  • 向浏欣;吴朝锋;蔡应繁;汪露;邓聿杉;何琳 - 重庆邮电大学
  • 2017-04-10 - 2019-12-31 - G16B30/10
  • 本发明公开了一种基于相似基因比例的基因家族关系判定方法,包括确定一个基因家族为指定基因家族,计算两个考察物种谁与参考物的指定基因家族亲缘关系更近,计算方法为将参考物种指定基因家族的基因分别与两个考察物种指定基因家族的基因进行两两序列比对,分别获取多个阈值条件下的参考物种的考察物种非冗余基因比例,确定相同阈值条件下参考物种的考察物种非冗余基因比例间的差值的绝对值最大且非冗余基因比例较大的考察物种为与参考物种指定基因家族关系更密切,可认为该考察物种与参考物种具有更相似的相应形态发育特征而应用于优势物种或目的物种的筛选,还可反映不同物种间基因家族的进化关系。
  • 基于二代测序的单基因或多基因拷贝数检测系统及方法-201910077588.3
  • 蔡秋娴;旷婷;孟鑫 - 明码(上海)生物科技有限公司
  • 2019-01-28 - 2019-12-27 - G16B30/10
  • 本发明公开了一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法,利用基于正则化线性回归模型(LASSO)的机器学习算法以及层次转移模型推断单基因或者多基因外显子的拷贝数变异,包括依次连接的:序列比对模块、去除重复序列模块、计算覆盖深度模块、标准化覆盖深度模块、正则化线性回归训练模块(LASSO线性回归训练模块)、覆盖深度预测模块、断点检测和log2Ratio值矫正模块、拷贝数状态推断模块。本发明利用机器学习方法对大规模二代靶向捕获测序数据进行训练,结合层次转移模型,目的是降低由于批次效应造成的技术和生物学误差,从而达到更好的拷贝数检测的准确性和精度。
  • 一种端到端的基于深度学习的ncRNA家族识别方法-201910852568.9
  • 刘元宁;王林宇;钟晓丹;刘海明;张浩;郑少阁 - 吉林大学
  • 2019-09-10 - 2019-12-20 - G16B30/10
  • 本发明公开了一种端到端的基于深度学习的ncRNA家族识别方法,其方法分为三部分:模型设计、模型训练以及装置设计和模型测试,各部分主要步骤为:第一步、模型设计;第二步、模型训练及装置设计;第三步、模型测试。本发明的有益效果:本发明提供了一种端到端的基于深度学习的ncRNA家族识别方法,该方法的新颖之处在于可以直接利用深度学习提取ncRNA序列特征来识别ncRNA家族,而不需要基于ncRNA二级结构预测工具的二级结构特征。不同于其他方法,我们的方法避免了由于ncRNA二级结构预测工具准确率比较低,而对精确地识别ncRNA家族带来不利的影响。因此,我们的方法不仅简化了操作步骤,使得ncRNA家族识别更加简便,更提高了识别精度。
  • 一种基于翻译组的环状RNA翻译多肽的检测分析方法-201910768511.0
  • 夏昊强;周煌凯;高川;张羽;陶勇;罗玥;陈飞钦;张秋雪 - 广州基迪奥生物科技有限公司
  • 2019-08-20 - 2019-12-10 - G16B30/10
  • 本发明提供一种基于翻译组的环状RNA翻译多肽的检测分析方法,包括如下内容:S1.将样本高通量测序获得的高质量比对序列进行TopHat比对以及鉴定,将鉴定结果过滤后,获得环状RNA序列信息;S2.对S1获得的环状RNA序列信息进行ORF注释;S3.对S1获得的环状RNA序列信息进行IRES预测;S4.结合ribosome‑seq测序数据鉴定内源性circRNA翻译产物;S5.对单样本检测到S4获得的具有junction reads的circRNA的母基因进行GO和KEGG富集分析。本发明基于翻译组的环状RNA翻译多肽的检测分析方法可以预测环状RNA的蛋白编码能力,同时结合翻译组ribosome‑seq数据,进一步找出环状RNA翻译的证据。
  • 一种基于高通量测序的数据分析方法-201710656413.9
  • 温颜华 - 北京百迈客生物科技有限公司
  • 2017-08-03 - 2019-11-19 - G16B30/10
  • 本发明公开一种基于高通量测序的数据分析方法。其中,所述方法包括:获取参考测序样品和对照测序样品,获得三种的RNA的差异DNA甲基化区域相关的表达水平出现差异的RNA,获得甲基化水平和表达水平高度相关的RNA,构成候选竞争性内源RNA调控关系对,生成候选竞争性内源RNA网络,筛选出hub节点,并将所述hub节点进行癌症的体细胞突变收录数据库注释。本发明提供的基于高通量测序的数据分析方法,将hub节点在癌症的体细胞突变收录数据库进行注释,发现癌症相关的竞争性内源RNA调控关系,预测癌症发生发展过程总的调控机制,提高了对癌症致病机理预测的准确性。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top