[发明专利]基于递归神经网络的RNA二级结构预测方法在审

专利信息
申请号: 201910284852.0 申请日: 2019-04-10
公开(公告)号: CN110060728A 公开(公告)日: 2019-07-26
发明(设计)人: 孙婷婷;苏静杰 申请(专利权)人: 浙江科技学院
主分类号: G16B15/00 分类号: G16B15/00
代理公司: 杭州万合知识产权代理事务所(特殊普通合伙) 33294 代理人: 丁海华
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列按长度分为长序列、中序列和长序列,随后对序列信息进行向量化,得到矩阵形式表示的特征信息,并分别以长序列、中序列和短序列最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;将特征矩阵输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。本发明可以对RNA二级结构进行预测,预测结果较为准确,而且可以能够进一步的挖掘RNA序列的隐含特征,有助于预测出更精准的RNA二级结构。
搜索关键词: 长序列 预测 递归神经网络 特征矩阵 特征信息 序列信息 一级序列 数据预处理 矩阵形式 数据集中 序列样本 预测结果 短序列 数据集 向量化 维度 填充 隐含 挖掘
【主权项】:
1.基于递归神经网络的RNA二级结构预测方法,其特征在于:按下述步骤进行:a、对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列数据集中的RNA一级序列按长度分为大于50nt的长序列、20nt‑50nt的中序列和小于20nt的短序列;b、将长序列、中序列和短序列中的序列信息进行向量化,得到矩阵形式表示的特征信息,并以长序列、中序列和短序列中最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;c、将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910284852.0/,转载请声明来源钻瓜专利网。

同类专利
  • 一种动态残基相互作用网络的社团检测方法-201910529560.9
  • 丁彦蕊;张辰 - 江南大学
  • 2019-06-19 - 2019-10-08 - G16B15/00
  • 本发明公开了一种动态残基相互作用网络的社团检测方法,属于计算机应用技术领域。所述方法包括将残基相互作用网络编码为进化图,进而筛选出进化图中的刚性残基相互作用,得到刚性残基相互作用网络,对刚性残基相互作用网络采用Fast‑Newman算法进行社团检测,从而得到动态残基相互作用网络中的社团结构;通过将进化图和Fast‑Newman聚类算法相结合,利用进化图实现残基相互作用网络的动态化,进而能够快速筛选出残基相互作用网络中持久的相互作用,并结合Fast‑Newman聚类算法准确的挖掘出蛋白质的社团结构,便于后续分析影响蛋白质结构和性质关系的研究发展。
  • 基于蛋白质长度和DCNN的分类建模方法及系统-201910603794.3
  • 刘毅慧;朱树平 - 齐鲁工业大学
  • 2019-07-05 - 2019-10-08 - G16B15/00
  • 本发明公开了一种基于蛋白质长度和DCNN的分类建模方法及系统,属于蛋白质预测分析领域;要解决的技术问题为如何结合深度学习对蛋白质二级结构进行预测分析,提高准确率。方法包括:取多个大数据集作为训练集,提取数据集中PSI‑Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。系统包含输入模块、格式转换模块、分组模块和模型训练模块。
  • 成骨活性多肽的构效评价方法-201910429862.9
  • 张春晖;叶孟亮;贾伟;王航;李侠;张鸿儒;秦晓洁;刘云鹤 - 中国农业科学院农产品加工研究所
  • 2019-05-22 - 2019-08-16 - G16B15/00
  • 本发明公开一种成骨活性多肽的构效评价方法,包括以下步骤:步骤一、筛选出具有潜在成骨活性肽;步骤二、构建预备对接多肽配体库;步骤三、获得靶点蛋白晶体结构,移除靶点蛋白晶体结构中的原配体作为靶点受体蛋白;步骤四、将预备对接多肽配体库中的每个多肽靶点受体蛋白分别结合对接,选取结合位点自由能小于第一预设值的多肽,形成稳定结合多肽集群;步骤五、计算多肽集群中氨基酸序列重复出现的次数,筛选出氨基酸序列重复出现次数高于第二预设值的氨基酸序列,并将含有该氨基酸序列的多肽认定为潜在的成骨活性多肽。本发明基于计算机辅助模拟分子对接技术评价多肽的促成骨细胞增殖活性,有效节省鉴定时间和成本,评价结果数据可靠性高。
  • 核酸结构中核苷酸与核苷酸相互作用预测的方法-201910328024.2
  • 赵蕴杰;简弋人;王晓囡;贾亚;曾辰 - 华中师范大学
  • 2019-04-23 - 2019-08-02 - G16B15/00
  • 本发明公开了一种核酸结构中核苷酸与核苷酸相互作用预测的方法。该方法利用直接耦合分析方法计算核酸同源序列的序列共进化关系,利用机器学习模型分析核酸三维结构的相互作用特征,然后结合序列共进化与三维结构特征预测核苷酸与核苷酸相互作用。结果表明,在预测排名前100的相互作用预测结果中,核苷酸与核苷酸的相互作用预测精度较传统方法提高了4%‑15%。本发明提出的利用序列和机器模型预测核酸结构中核苷酸与核苷酸相互作用的方法将提高核酸分子三级结构预测的精度,对核酸结构建模与功能机理的研究有重要帮助。
  • 基于递归神经网络的RNA二级结构预测方法-201910284852.0
  • 孙婷婷;苏静杰 - 浙江科技学院
  • 2019-04-10 - 2019-07-26 - G16B15/00
  • 本发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列按长度分为长序列、中序列和长序列,随后对序列信息进行向量化,得到矩阵形式表示的特征信息,并分别以长序列、中序列和短序列最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;将特征矩阵输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。本发明可以对RNA二级结构进行预测,预测结果较为准确,而且可以能够进一步的挖掘RNA序列的隐含特征,有助于预测出更精准的RNA二级结构。
  • 基于链置换的四位BCD码加法器的设计方法-201611203913.9
  • 张强;施兰兰;周昌军;魏小鹏 - 大连大学
  • 2016-12-23 - 2019-07-16 - G16B15/00
  • 本发明涉及链置换领域,构造了一种基于DNA链置换的四位BCD码加法器的设计方法。该加法器的设计方法中引入了双轨逻辑的思想,利用DNA链模拟由17个与非门、12个或非门、2个或门和一个与门构成的单轨逻辑电路并将其转化为双轨逻辑参与反应,这种方法使反应更加稳定高效,得到的结果逻辑更加清晰易于理解。从实验数据和实验结果来看,该方法不仅可以正确的处理运算过程中的进位与溢出,而且效率高,结果稳定,说明了该加法器设计的有效性。
  • 改进的激素结合蛋白质分类方法-201910152765.X
  • 汪清;王阔 - 天津大学
  • 2019-02-28 - 2019-07-05 - G16B15/00
  • 本发明属于生物信息学领域,为对最新的HBPs分类方法进行改进,特征提取方法改进为三肽提取,并在最后用投票方法进一步增加准确率。在给定的多类蛋白质样本中,能够以更高的精确度识别出HBPs。本发明,改进的激素结合蛋白质分类方法,给定蛋白质样本中的一半为正例激素结合蛋白HBPs,其余一半为反例;首先通过三肽即三个氨基酸来提取特征;然后通过ANOVA方法,对特征按照其重要性进行排序,并计算降维到各维度时,HBPs识别的精确度;最后将得到的libsvm格式文件转换为arff文件格式,用开源的机器学习以及数据挖掘LibSVM,随机森林,朴素贝叶斯三种分类方法进行投票。本发明主要应用于生物信息学检测。
  • 一种基于半监督学习的交联质谱多谱排序方法-201610905670.7
  • 尹吉澧;孟佳明;刘超;迟浩;陈镇霖;孙瑞祥;董梦秋;贺思敏 - 中国科学院计算技术研究所
  • 2016-10-18 - 2019-05-07 - G16B15/00
  • 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
  • 一种基于深度神经网络的蛋白质二级结构预测方法-201610519695.3
  • 毛华;陈媛媛;罗川;汪洋旭;陈盈科 - 四川大学
  • 2016-07-05 - 2019-05-07 - G16B15/00
  • 本发明公开了一种基于深度学习及神经网络方法的蛋白质二级结构预测方法,本发明涉及神经网络及蛋白质二级结构预测技术领域。该方法以蛋白质特征序列为输入,通过设计的深度回复式神经网络模型,预测序列各个位点氨基酸残基的空间二级结构。本发明实现了基于输入特征的二级结构自动预测,具有很好的泛化能力,能够根据不同输入特征训练特定模型并实现高准确度的二级结构预测。
  • 基于拟态章鱼RNA编辑的遗传方法-201811426729.X
  • 吴秋轩;张学成;顾月琴 - 杭州电子科技大学
  • 2018-11-27 - 2019-05-03 - G16B15/00
  • 本发明公开了一种基于拟态章鱼RNA编辑的遗传方法。本发明通过对拟态章鱼的四种碱基A,C,G,U进行编码,并借鉴章鱼的RNA编辑思想,将A变异成G,编写RNA遗传算法,并对不同的测试函数进行寻优计算,多次对比实验,最终得出该算法在寻优性能上具有一定的有效性,能够快速跳出局部循环而找到全局最优值;通过对该算法的研究有助于进一步探究RNA编辑机制对拟态章鱼进化的影响。本发明遗传算法具有寻优精度高、应用较为广泛的特点,从而较好的避免了传统遗传算法解决问题的局部最优解以及求解结果强烈依赖于初始值的缺陷。
  • 基于代价敏感LSTM网络的蛋白质域检测方法及系统-201610629963.7
  • 沈红斌;陈晓 - 上海交通大学
  • 2016-08-04 - 2019-03-26 - G16B15/00
  • 一种基于代价敏感LSTM网络的蛋白质域检测方法,采用双向LSTM网络作为蛋白质域检测的模型;提出一个代价敏感的损失函数,为正负样本的错分赋予不同的代价;同时提出一种更新损失函数中代价权重的方法,对于任意给定的初始值,能够在网络训练过程中自适应地更新代价权重。采用平滑、删除、合并操作对模型的原始输出进行后处理。本发明优点包括:检测模型采用双向LSTM网络,对蛋白质序列的长程相关性进行有效建模;使用代价敏感的损失函数训练模型,适应蛋白质域数据集不平衡的特征;引入代价权重自适应更新方法,适用于任何数据集;对模型输出进行后处理,减少假阳性结果。
  • 一种DNA分子的定点编辑方法-201611231114.2
  • 郭芬芬;王作斌;王非非;王莹;刘劲芸;王馨悦;黄婷婷;董莉彤;宋正勋;翁占坤;许红梅 - 长春理工大学
  • 2016-12-28 - 2019-03-26 - G16B15/00
  • 本发明一种DNA分子的定点编辑方法,采用静电场电荷相互作用,载玻片作为调控装置的中间介质,铜胶带作为装置电极板,并在上下两表面分别引出一条导线用于与直流电源相连;DNA分子溶液用TE缓冲液稀释至一定浓度作为实验DNA溶液,采用新鲜剥离的氟晶云母片作为基底,将氟晶云母片置于电场调控装置上极板的中间位置,将配置好的DNA溶液滴到云母片上,然后采用电压增进式对装置进行充电,将每个电压值下拉伸的DNA分子样品置于AFM系统下成像,直至在云母片上得到具有拉直的并且分散有序的DNA分子图像,随后选择单根DNA分子并分别采用恒力切割和酶切割两种方法对DNA分子进行定点切割。本发明具有良好的稳定性;采用恒力和酶切割,方法简便快捷,碱基针对性强,效率高。
  • 结合亲和力预测系统和方法-201580036059.9
  • A·S·海菲兹;I·瓦拉赫;M·迪萨巴 - 艾腾怀斯股份有限公司
  • 2015-05-05 - 2019-03-26 - G16B15/00
  • 公开了用于预测结合亲和力的系统、装置和方法。存储反映输入数据的记录。构建提供对结合输入特征的几何表示的数据结构。所述数据结构通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充,用于编码的所述数据选自所述存储的输入数据。将预测模型应用于所述数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。
  • 小分子共价抑制剂计算机筛选方法及其在筛选S-腺苷甲硫氨酸脱羧酶共价抑制剂的应用-201610257410.3
  • 刘森 - 三峡大学
  • 2016-04-22 - 2019-02-22 - G16B15/00
  • 本发明属于生物医学领域,尤其是涉及小分子共价抑制剂的计算机筛选方法及其在筛选S‑腺苷甲硫氨酸脱羧酶的共价抑制剂的应用。所述方法为在计算机辅助筛选和设计共价抑制剂的过程中,首先减弱或消除蛋白受体的空间位阻,再将其用于共价抑制剂或共价结合分子的筛选、设计和改造。所述方法在筛选S‑腺苷甲硫氨酸脱羧酶的共价抑制剂的应用为将S‑腺苷甲硫氨酸脱羧酶晶体结构中的丙酮酰68残基删除,并在Rosetta软件中优化,得到优化后的蛋白晶体结构;再与小分子进行对接计算,得到对接计算结果;对计算结果进行筛选,得到小分子共价抑制剂。本发明可广泛利用已经发展完善的众多非共价抑制剂的对接计算方法,因此可以大大加速共价抑制剂的筛选、优化和发现。
  • 一种蛋白质二维结构图功能元件的自动布线方法-201611186987.6
  • 马宝山;张晓宇;耿尧;黄金艳;万亭君;刘珂阳;赵倩;徐丹;王巍;孙野青 - 大连海事大学
  • 2016-12-20 - 2019-02-22 - G16B15/00
  • 本发明提供一种蛋白质二维结构图功能元件的自动布线方法,包括:获取蛋白质的长度、蛋白质结构图中的蛋白质功能元件数据,并保存,判断功能元件文件数据是否为空,若否,则读取功能元件文件数据;根据两个相邻的功能元件的位置的差与两个功能元件名称之间相对距离的最小差判断相邻功能元件的名称是否重叠,若是,则根据功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置;根据功能元件文件中的功能元件位置、功能元件名称的横坐标最终位置确定标注线的位置。本发明使得绘制蛋白质二维结构图快速精确。
  • 一种蛋白质-RNA复合物结构预测方法-201610649359.0
  • 刘士勇;郑进芳 - 华中科技大学
  • 2016-08-10 - 2019-01-29 - G16B15/00
  • 本发明公开了一种蛋白质‑RNA复合物结构预测方法,具体涉及一种基于模板构建蛋白质‑RNA相互作用模型的方法,首先通过从PDB数据库中挑选出439个的蛋白质‑RNA的模板库,然后使用蛋白质(RNA)的结构比对所有的模板复合物得出相似分数;然后再根据蛋白质(RNA)中的相似分数小的那个值对模型进行排序,最后与给定的阈值进行计较来判断给定的蛋白质‑RNA是否能够结合并给出蛋白质‑RNA的3D结构。本发明开创性地提出了在基于模板构建蛋白质‑RNA的相互作用模型的计算方法,填补了目前的空白,本发明的计算方法比对接的方法成功率增加了40%左右,大大的促进了蛋白质‑RNA三维结构领域的发展。
  • 蛋白质三维结构中金属离子结合位点单配体残基模板库的建立方法及基于此的预测方法-201510807897.3
  • 赵伟 - 中国科学技术大学
  • 2015-11-19 - 2019-01-11 - G16B15/00
  • 一种蛋白质三维结构中金属离子结合位点单配体残基模板库的建立方法及基于此的预测方法,该方法开发了一种以天然存在的单配体残基金属结合态为模板,以关键几何量D、G、C值为模板与潜在配体残基是否匹配的检索筛选条件之一,以先由潜在第一、第二配体残基确定金属的可能位置,再逐步加入其他配体残基的搜索筛选策略,以计算预测位点与天然和标准位点构象偏差Deviation值为计分法的最后总排序筛选方式的新方法。并且,本发明以锌位点预测为例,对该方法的预测性能进行了检测,得到了优于现有其他方法的良好预测效果。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top