[发明专利]一种基于深度学习的DNA序列基元挖掘方法和系统在审

申请号：	202110266696.2	申请日：	2021-03-11
公开（公告）号：	CN112863598A	公开（公告）日：	2021-05-28
发明（设计）人：	黄德双;张钦虎	申请（专利权）人：	同济大学
主分类号：	G16B30/00	分类号：	G16B30/00;G16B50/00;G06N3/08;G06N3/04
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	王颖
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习 dna 序列挖掘方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的DNA序列基元挖掘方法，其特征在于，包括以下步骤：

步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；

步骤2、对每个数据包进行特征学习构造混合深度神经网络模型，对数据包中每个示例进行预测打分；

步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。

2.如权利要求1所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中所述重叠分割策略为：定义一个长度为c的滑动窗口，并通过步幅s将长度为l的DNA序列分成多个长度为c的示例，将一条DNA序列转换为一个数据包，所述数据包中的示例数量为：(l-c)/s+1，其中s和c为预设超参数。

3.如权利要求2所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中采用k-mer编码将所有的示例转换为具有高阶依赖关系的图像矩阵，计算过程如下公式所示：

其中，i∈[1,c-k+1]，j∈[1,4^k]，c表示示例的长度，k表示编码的阶数，x_i表示来自{A，C，G，T}的任一字符，而X_i,j表示经过k-mer编码后的一个矩阵，

其中，当k被设置为1时，k-mer编码就等价于one-hot编码。

4.如权利要求1至3任何一项所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤2中所述混合深度神经网络模型包括：卷积神经网络CNN和递归神经网络RNN，其中，卷积神经网络采用权重共享策略来捕获DNA序列中的局部模式，而递归神经网络使用其内部状态来学习动态时间或序列模式；CNN被用于学习基元特征，而RNN被用于学习基元特征之间的长期依赖关系。

5.如权利要求1或4所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤2中利用该混合深度神经网络模型对每个数据包中的所有示例进行预测打分，得到了每个示例的打分值p，其为示例包含结合位点的概率。

6.如权利要求5所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤3中采用Noisy-and方法融合，计算过程如下公式所示：

其中，p_ij表示第i个数据包中第j个示例的得分，n_i表示第i个数据包中的示例数量，表示第i个数据包的平均得分。Noisy-and被设计为当示例的平均值超过预设阈值时激活一个数据包概率P_i，a为预设超参数，用于控制Noisy-and的斜率，b_i表示每个数据包i的自适应软阈值，σ(a(1-b_i))和σ(-ab_i)用于归一化P_i到[0,1]，b_i限定在[0,1]以及a0，σ指sigmoid函数。

通过Noisy-and方法将数据包中所有示例的预测值进行融合，以此来得到数据包“绑定”和“非绑定”的概率分布。

7.一种基于深度学习的DNA序列基元挖掘系统，其特征包括：

预处理装置：用于采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；

打分装置：用于对每个数据包进行特征学习，以构造混合深度神经网络模型，对数据包中每个示例进行预测打分；

融合装置：用于对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110266696.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的DNA序列基元挖掘方法和系统在审

专利文献下载