[发明专利]一种基于卷积神经网络的核小体分类预测方法有效
申请号: | 201711011644.0 | 申请日: | 2017-10-25 |
公开(公告)号: | CN107545153B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 樊永显;龚浩;蔡国永;张向文;张龙 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 刘梅芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性;3)添加生物特性;4)获取第24维向量;5)添加核苷酸化学性质;6)得到包含生物信息的矩阵;7)构建卷积神经网络结构;8)分类核小体。这种方法能精准预测核小体的分类。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 小体 分类 预测 方法 | ||
【主权项】:
一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):Xi=(Pi,1,Pi,2,...,Pi,16)T (1)Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al‑Genome biology,2007,8,R263中的六种物理结构性质的原始值,二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:Pv(RiRi+1)=Pv(RiRi+1)-<Pv>SD(Pv)---(2),]]>其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T (3)Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;3)添加生物特性:采用Segal‑Segal E,Foudufe—Mittendorf Y,Chen L,et a1.A genomic code for nueleosome positioning[J].Nature,2006,443:772‑778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T (4)ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T (5)Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T (6)Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的*(147*27)的矩阵如公式(7):P=P1,1P1,2LP1,27P2,1P2,2LP2,27LLLLPi,1Pi,2LPi,27LLLLPn,1Pn,2LPn,27nx27---(7)]]>Pi,1 Pi,2 L Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度。8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711011644.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟机迁移的方法及装置
- 下一篇:流量处理方法及装置