[发明专利]一种基于卷积神经网络的核小体分类预测方法有效

专利信息
申请号: 201711011644.0 申请日: 2017-10-25
公开(公告)号: CN107545153B 公开(公告)日: 2021-06-11
发明(设计)人: 樊永显;龚浩;蔡国永;张向文;张龙 申请(专利权)人: 桂林电子科技大学
主分类号: G16B40/00 分类号: G16B40/00;G06N3/04
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 刘梅芳
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性;3)添加生物特性;4)获取第24维向量;5)添加核苷酸化学性质;6)得到包含生物信息的矩阵;7)构建卷积神经网络结构;8)分类核小体。这种方法能精准预测核小体的分类。
搜索关键词: 一种 基于 卷积 神经网络 小体 分类 预测 方法
【主权项】:
一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):Xi=(Pi,1,Pi,2,...,Pi,16)T     (1)Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al‑Genome biology,2007,8,R263中的六种物理结构性质的原始值,二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:Pv(RiRi+1)=Pv(RiRi+1)-<Pv>SD(Pv)---(2),]]>其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T    (3)Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;3)添加生物特性:采用Segal‑Segal E,Foudufe—Mittendorf Y,Chen L,et a1.A genomic code for nueleosome positioning[J].Nature,2006,443:772‑778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T      (4)ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T    (5)Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T   (6)Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的*(147*27)的矩阵如公式(7):P=P1,1P1,2LP1,27P2,1P2,2LP2,27LLLLPi,1Pi,2LPi,27LLLLPn,1Pn,2LPn,27nx27---(7)]]>Pi,1 Pi,2 L Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度。8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711011644.0/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top