[发明专利]一种基于深度学习的RBP结合位点预测算法有效
申请号: | 202110229810.4 | 申请日: | 2021-03-02 |
公开(公告)号: | CN113035280B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 朱敏;闫建荣;明章强;王心翌 | 申请(专利权)人: | 四川大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/30;G16B5/00;G06N3/08;G06N3/04 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 rbp 结合 预测 算法 | ||
1.一种基于深度学习的RBP结合位点预测算法,其特征在于,包括如下步骤:
步骤1)对于给定的RBP数据集,首先提取序列信息和独立测试集;再根据序列信息,预测出二级结构信息;根据序列和结构信息,分别构建序列和结构的编码矩阵;并构建独立测试集的编码矩阵,对应于每个RBP创建正样本和负样本;
步骤2)构建包括生成网络和判别网络的生成对抗网络;在训练过程中,采用强化学习对判别网络优化,使优化过后的判别网络促使生成网络生成更逼真的合成数据,并在步骤1)中所得的序列和结构的编码矩阵上分别进行训练;
步骤3)构建卷积自编码器预测模型,将步骤1)中所得到的编码矩阵和步骤2)中所得到的合成数据合并,分别得到数据规模更大的序列和结构矩阵,将序列和结构矩阵分别训练;
步骤4)分别提取卷积自编码器中序列和结构编码器中卷积核的参数,分别与RNA序列和结构的编码矩阵进行卷积运算,针对每个RBP,将所有滑动窗口中超过规定阈值的短序列拼接起来,对每组短序列进行序列比对,统计序列中每个位置上的一致性,作为motif;
步骤5)对每种RBP数据均训练一个对应的预测模型;对于一个待预测的RNA序列,首先编码序列,然后将编码信息输入到已训练好的各个预测模型中,最终的结果即为特异RNA与各个RBP对应的结合概率。
2.根据权利要求1所述的基于深度学习的RBP结合位点预测算法,其特征在于,所述步骤1)中构建序列和结构的编码矩阵过程如下:
步骤1.1)设定RNA序列长度为L,对RNA序列和标签进行one-hot编码;对于长度不足L的序列,采用“N”在末尾填充,“N”为等概率填充,“N”的向量表示为[0.25,0.25,0.25,0.25];对于超过L的序列,将截取长度L作为训练序列;对于碱基A、C、G、U序列编码后编码矩阵维度为L×4;
步骤1.2)RNA二级结构为由FocusFold算法预测得到的“点-括号”格式,一对左右“括号”表示存在一对碱基配对,而“点”则表示未发生配对,每个符号分别按顺序对应于每个碱基位点,然后根据碱基配对原则,得到每个碱基位点的二级结构注释,所述二级结构注释包括堆叠S、自由端F、连接处J、发卡环H、内环与多环M,对RNA结构进行one-hot编码,结构编码后特编码阵维度为L×5。
3.根据权利要求2所述的基于深度学习的RBP结合位点预测算法,其特征在于,所述步骤2)中生成合成数据的过程如下:
步骤2.1)所述生成对抗网络包括生成网络和判别网络,其中,生成网络包括一层循环神经网络和一层全连接网络,全连接网络作为输出单元;判别网络包括一层循环神经网络、一层全连接网络和分类器;
步骤2.2)将步骤1.1)和步骤1.2)中所得的序列和结构的编码矩阵分别输入到生成对抗网络训练,采用强化学习技术优化判别网络;被优化的判别网络的返回值反馈给生成网络,多次训练迭代,生成网络生成更逼真的合成数据;
步骤2.3)提取步骤2.2)中已训练好的序列和结构生成网络,分别生成合成的序列和结构矩阵。
4.根据权利要求3所述的基于深度学习的RBP结合位点预测算法,其特征在于,所述生成网络中,循环神经网络采用双向LSTM,包含256个计算单元;全连接网络作为输出层,包含100个神经元;
所述判别网络中,循环神经网络采用双向LSTM,包含256个计算单元;全连接网络作为中间层,包含100个神经元;分类器采用Sigmoid激活函数。
5.根据权利要求1所述的基于深度学习的RBP结合位点预测算法,其特征在于,所述步骤3)中卷积自编码器构建与训练过程如下:
步骤3.1)所述卷积自编码器包括编码器与解码器,在预训练阶段,编码器与解码器共同工作,序列和结构分别训练,输入数据经过编码器的降维学习,得到中间抽象特征,之后解码器重构输入数据;
步骤3.2)在微调阶段,提取编码器模型与权重参数,将序列和结构的编码器并行,增加两层LSTM层,最终实现结合位点预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110229810.4/1.html,转载请声明来源钻瓜专利网。