[发明专利]miRNA靶基因预测及其模型训练的方法、系统和存储介质在审
| 申请号: | 202211615351.4 | 申请日: | 2022-12-15 |
| 公开(公告)号: | CN116013409A | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 张紫阳;王诺;王勇斯;黎彦伶;范文涛;温韵洁;全智慧;裘宇容 | 申请(专利权)人: | 广州华银医学检验中心有限公司 |
| 主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B40/00;G16B30/10;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 北京市通商律师事务所 11951 | 代理人: | 巩靖 |
| 地址: | 510670 广东省广州市高新技术产业开发区科学城揽月*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | mirna 基因 预测 及其 模型 训练 方法 系统 存储 介质 | ||
本申请提供了一种miRNA靶基因预测及其模型训练的方法、系统和存储介质。所述miRNA靶基因预测模型的训练方法包括:将由miRNA的序列和mRNA的序列拼接而成的输入数据投射到A碱基空间、U碱基空间、G碱基空间和C碱基空间,从而获得A碱基向量、U碱基向量、G碱基向量和C碱基向量;利用miRNA靶基因预测模型的四级依次连接的卷积层、激活层和池化层从所述A碱基向量、所述U碱基向量、所述G碱基向量和所述C碱基向量提取特征张量;将所提取的特征张量输入全连接层以获得预测结果;将所获得的预测结果与参考结果进行比对;以及基于比对的结果优化所述miRNA靶基因预测模型。
技术领域
本申请涉及生物信息学,更具体地,涉及一种miRNA靶基因预测及其模型训练的方法、系统和存储介质。
背景技术
microRNA(以下简称“miRNA”)是一类由内源基因编码的非编码单链RNA分子,其长度一般约为18-25nt。在生物发展进程中,miRNA具有重要的调节作用。miRNA主要通过参与基因的转录后调控实现对靶基因表达的负调节,具体作用方式主要为翻译抑制(常见于动物)和降解靶基因(常见于植物)。miRNA在肿瘤发生发展、生物发育、器官形成、病毒防御、表观调控以及代谢等方面起着极其重要的调控作用。了解miRNA调控的靶基因对于肿瘤防治以及其他疾病诊疗具有重要意义。
然而,miRNA具有非常复杂的调控网络,往往一个miRNA可以调控多种靶基因,而同一个靶基因也可以有多个miRNA来进行调节。目前业内广泛使用miRanda、RNAhybrid、PITA、TargetScan等软件预测miRNA的靶基因。这类软件的思路是计算miRNA和靶基因的互补配对情况,并进一步根据miRNA和靶基因结合的热力学稳定性来判断该靶基因是否是与miRNA互作的基因。虽然这类软件在预测过程中考虑了miRNA特定序列和靶基因的碱基互补情况、靶基因非翻译区的跨物种保守性以及miRNA和靶基因二聚体热力学稳定性,并且这类方法可以用于任何物种,计算量相对较小,然而,这类软件的算法本身并未真正反映出miRNA和靶基因的互作生物学机制。因此,这类软件对于miRNA靶基因预测的准确率往往不足40%。这大幅增加了后期验证的工作量,因此时间成本和经济成本并不低廉。此外,现有的miRNA靶基因预测软件(例如miranda、PITA、RNAhybrid等)通常需要用户在进行靶基因预测时输入热力学能量阈值、得分阈值、折叠UTR需要考虑的目标上下游位置等信息,这些信息一方面对于预测结果具有一定的偏好干扰(尤其是在当前没有真正理解miRNA与靶基因作用机制的情况下),另一方面也带来了一些使用上的不便利。因此,市场上需要一种相对高效、准确、便捷的miRNA靶基因预测方法。
发明内容
本申请提供了一种miRNA靶基因预测模型的训练方法,包括:将由miRNA的序列和mRNA的序列拼接而成的输入数据投射到A碱基空间、U碱基空间、G碱基空间和C碱基空间,从而获得A碱基向量、U碱基向量、G碱基向量和C碱基向量;利用miRNA靶基因预测模型的四级依次连接的卷积层、激活层和池化层从所述A碱基向量、所述U碱基向量、所述G碱基向量和所述C碱基向量提取特征张量;将所提取的特征张量输入全连接层以获得预测结果;将所获得的预测结果与参考结果进行比对;以及基于比对的结果优化所述miRNA靶基因预测模型。
根据本申请实施方式,所述miRNA的序列和所述mRNA的序列包括阳性训练集中彼此互作的miRNA的序列和mRNA的序列以及阴性训练集中随机生成的miRNA的序列和mRNA的序列,其中:所述阳性训练集中彼此互作的miRNA的序列和mRNA的序列是从ENCORI、miRDB、miRTarBase、miRNet、miRWalk中至少一个数据库中提取的经低通量实验验证的、彼此互作的miRNA的序列及对应的mRNA的序列;所述阴性训练集中随机生成的miRNA的序列和mRNA的序列是随机生成的序列,并且所述随机生成的序列排除了所述阳性训练集中彼此互作的miRNA的序列和mRNA的序列以及经miRanda、RNAhybrid和PITA预测互作的miRNA的序列和mRNA的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华银医学检验中心有限公司,未经广州华银医学检验中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211615351.4/2.html,转载请声明来源钻瓜专利网。





