[发明专利]一种circRNA和miRNA关联关系高效预测方法在审
| 申请号: | 202210119428.2 | 申请日: | 2022-02-08 |
| 公开(公告)号: | CN114496084A | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 邝祝芳;马志豪;张宇豪 | 申请(专利权)人: | 中南林业科技大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G16B50/00;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410004 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 circrna mirna 关联 关系 高效 预测 方法 | ||
1.一种circRNA和miRNA关联关系的高效预测方法,主要包括以下步骤:
步骤1:从公开数据库CircR2Cancer(网址:http://www.biobdlab.cn:8000/index/)下载circRNA与疾病、miRNA关联关系数据库,得到circRNA-miRNA关联关系数据库,获取circRNA-miRNA关联矩阵A和circRNA-疾病关联矩阵Ac;从公开数据库circBase(网址:http://www.circbase.org/)下载circRNA与序列信息数据库;通过上述数据库提供的信息分别计算出基于疾病的circRNA的高斯内核相似度矩阵CCIS、基于miRNA的circRNA的高斯内核相似度矩阵CMIS与基于序列的circRNA相似度矩阵CES;根据circRNA-miRNA关联矩阵A,计算出基于miRNA的高斯内核相似度矩阵MIS;根据miRNA-疾病关联矩阵Am,计算出基于miRNA的高斯内核相似度矩阵MCIS;
步骤2:利用circRNA相似度矩阵CCIS、CMIS、CES,整合后得到circRNA综合相似度矩阵CS;利用miRNA相似度矩阵MIS、MCIS整合得到miRNA综合相似度矩阵MS;
步骤3:分别对circRNA综合相似度矩阵CS和miRNA综合相似度矩阵MS采用Node2vec算法计算出circRNA与miRNA的特征矩阵CNS、MNS;
步骤4:拼接矩阵CNS与A得到circRNA特征矩阵CF、拼接MNS与A得到miRNA特征矩阵MF;
步骤5:整合0矩阵、A矩阵得到异构邻接矩阵Acm,整合CF、MF矩阵得到异构特征矩阵CM;
步骤6:把异构邻接矩阵Acm与异构特征矩阵CM嵌入图注意力网络,通过基于talking-heads与条件随机场算法进行编码,再通过完全矩阵分解算法进行解码得出最终得分矩阵进行预测;
步骤7:使用5折交叉验证进行验证;
步骤1中计算circRNA-miRNA关联矩阵A,计算基于miRNA的circRNA的高斯内核相似度矩阵CMIS,计算circRNA-疾病关联矩阵Ac,计算基于疾病的circRNA的高斯内核相似度矩阵CCIS,计算基于序列的circRNA相似度矩阵CES,计算基于circRNA的miRNA高斯内核相似度矩阵MIS,计算基于疾病的miRNA的高斯内核相似度矩阵MCIS,步骤如下:
利用公开数据库CircR2Cancer(网址:http://www.biobdlab.cn:8000/index/)下载的已知circRNA-miRNA、circRNA-疾病关联关系,构建circRNA-miRNA关联关系矩阵A,如果circRNA与miRNA存在关联,则A中对应的元素为1,否则为0;构建circRNA-疾病关联关系矩阵Ac,如果circRNA与疾病存在关联,则Ac中对应的元素为1,否则为0;高斯内核相似度用于测量生物分子之间的相似性,利用circRNA-miRNA关联关系矩阵A,计算出高斯内核相似度矩阵CMIS用于描述基于miRNA的circRNA内核相似性信息;利用circRNA-疾病关联矩阵Ac,计算出高斯内核相似度矩阵CMIS用于描述基于疾病的circRNA内核相似性信息;最后,通过公开数据库circBase(网址:http://www.circbase.org/)下载已知的circRNA-序列关联关系,然后基于混沌博弈表示(chaos game representation,CGR)的方法,利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circRNA相似度矩阵CES;具体步骤如下:
(1)构建circRNA-miRNA关联关系的关联矩阵A,A的行数为circRNA的数量,A的列数为miRNA的数量,A(ci,mj)如式(1)所示:
其中A(ci,mi)=1表示circRNAci和miRNA mj存在关联,值为0表示不存在关联;
(2)构建基于miRNA的circRNA的高斯相互作用属性核相似度矩阵CMIS,对于一个circRNA ci,它的IP1(ci)值定义为circRNA-miRNA关联关系的关联矩阵A的第i行,计算每一对circRNA ci和circRNA cj之间的高斯相互作用属性核相似度,如式(2)所示:
CMIS(ci,cj)=exp(-γc||IP1(ci)-IP1(cj)||2) (2)
其中,CMIS表示基于miRNA的circRNA的高斯相互作用属性核相似矩阵,元素CMIS(ci,cj)表示circRNAci和circRNA cj的高斯相互作用属性核相似度,γc用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ′c的正则化的高斯相互作用属性核相似度频宽,且把γ′c设置为1,n表示circRNA的数量;
(3)构建circRNA-疾病关联关系的关联矩阵Ac,Ac的行数为circRNA的数量,Ac的列数为疾病的数量,Ac(ci,dj)如式(4)所示:
其中Ac(ci,dj)=1表示circRNA和疾病dj存在关联,值为0表示不存在关联;
类似地,构建基于疾病的circRNA的高斯相互作用属性核相似度矩阵CCIS,对于一个circRNA ci,它的IP2(ci)值定义为circRNA-疾病关联关系的关联矩阵Ac的第i行,计算每一对circRNA ci和circRNA cj之间的高斯相互作用属性核相似度,如式(5)所示:
CCIS(ci,cj)=exp(-γcc||IP2(ci)-IP2(cj)||2) (5)
其中,CCIS表示基因的高斯相互作用属性核相似矩阵,元素CCIS(ci,cj)表示circRNAci和circRNA cj的高斯相互作用属性核相似度,γcc用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ′cc的正则化的高斯相互作用属性核相似度频宽,且把γ′cc设置为1;k表示基因的数量;
(4)基于混沌博弈表示(chaos game representation,CGR)的方法可以将circRNA序列转化成相应的类谱格式;该方法可以利用CGR坐标将circRNA序列转化成CGR弧度序列;
circRNA序列具有非随机性,而非随机性意味着序列具有“结构”;因为混沌博弈可用于可视化显示某些类型的非随机性,且可以将circRNA序列形式上看成是由四个字母″a″、″c″、″g″和″u″(或″t″)组成的字符串,因此我们可以使用下一个基数(a,c,g,t/u)来选择下一个点;我们将CGR空间绘制成一个正方形,正方形的四个角分别标记为″a″、″c″、″g″和″u″;例如,如果″c″是序列的下一个符号(底数),则在前一个符号的点和″c″角之间的一半位置绘制一个点;假设某circRNA序列为′gaattc′,则CGR空间绘制方法如下:
1).第一个″g″绘制在图形正方形的中心与”g″角之间的中间位置,记为p1;
2).下一个符号”a″被绘制在刚绘制的点p1与″a″角之间的中间位置,记为p2;
3).在上一个点p2和″a″角之间的中间位置绘制符号″a″的点,记为p3;
4).接下来,将″t″绘制在p3与″t″角之间的中间位置,记为p4;
5).其次,将下一个″t″绘制在p4与″t″角之间的中间位置,记为p5;
6).最后,将″c″绘制在p5与″c″角之间的中间位置
此方法利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circRNA相似度矩阵CES;
首先,把所有序列基数绘制完成,之后再将CGR空间划分为Ng=8×8,即8行8列的网格,第i个网格gridi可以表示为式(7)所示:
gridi=(Xi,Yi,Zi) (7)
其次,分别累加每个网格中的横坐标值xj和纵坐标值yj得到网格gridi的量化位置信息Xi和Yi,如式(8)所示:
Numi=number of points in gridi (9)
其中Numi表示第i个网格gridi中的点数,Xi表示第i个网格gridi的中点的所有点的横坐标值Xi的和,Yi表示第i个网格gridi的中点的所有点的横坐标值Yi的和;
再次,计算网格grid的Zi分数得到量化非线性信息,如式(10)所示:
其中Ng=64,表示网格总数;
最后,基于上面计算每个网格gridi的Xi、Yi和Zi三个属性,我们将这三个属性融合以构造描述数组,即descriptors(ci),如(11)所示:
以c1为例,descriptors(c1)=((X1,Y1,Z1),(X2,Y2,Z2),...,(X61,Y64,Z64));
再由皮尔逊相关系数确定序列相似度CES(ci,cj),如式(12)所示:
其中Cov(descriptors(ci))是descriptors(ci)的协方差,D(descriptors(ci))是descriptors(ci)的方差,ci代表第i个circRNA;
(5)与计算circRNA的内核相似度类似,通过circRNA-miRNA关联矩阵A计算基于circRNA的miRNA内核相似度矩阵MIS,对于一个miRNA mi,它的IP3(mi)值定义为circRNA-miRNA关联关系的关联矩阵A的第i列,计算每一对miRNA mi和miRNA mj之间的高斯相互作用属性核相似度MIS,如式(13)所示:
MIS(mi,mj)=exp(-γm||IP3(mi)-IP3(mj)||2) (13)
其中,MIS表示miRNA的高斯相互作用属性核相似矩阵,元素MIS(mi,mj)表示miRNA mi和miRNA mj的高斯相互作用属性核相似度,γm表示基于频宽参数,γ′m的正则化的高斯相互作用核相似度频宽,t表示circRNA的数量;
(6)构建miRNA-疾病关联关系的关联矩阵Am,Am的行数为miRNA的数量,Am的列数为疾病的数量,Am(mi,dj)如式(15)所示:
与计算circRNA的内核相似度类似,通过miRNA-疾病关联矩阵Am计算疾病内核相似度矩阵MIS,对于一个miRNA mi,它的IP3(mi)值定义为miRNA-疾病关联关系的关联矩阵Am的第i行,计算每一对miRNA mi和miRNA mj之间的高斯相互作用属性核相似度MCIS,如式(16)所示:
MCIS(mi,mj)=exp(-γmc||IP4(mi)-IP4(mj)||2) (16)
其中,MCIS表示基于疾病的miRNA高斯相互作用属性核相似矩阵,元素MCIS(mi,mj)表示miRNA mi和miRNA mj的高斯相互作用属性核相似度,γmc表示基于频宽参数,γ′mc的正则化的高斯相互作用核相似度频宽,f表示疾病的数量;
步骤2中通过融合步骤1计算得到的基于miRNA的circRNA高斯内核相似度CMIS、基于疾病的circRNA高斯内核相似度CCIS与circRNA的序列相似度CES得到circRNA综合相似度矩阵CS,融合步骤1计算得到的基于疾病的miRNA高斯内核相似度MIS、基于circRNA的miRNA高斯内核相似度MCIS得到miRNA综合相似度矩阵MS,具体方法如下:
如果基于序列的circRNA相似度矩阵CES不为0,则把CMIS、CCIS、CES加之后除以3作为当前circRNA的功能相似度CS;否则将CIS和CGS相加除以2作为当前circRNA的综合相似度CS,如式(18)所示:
通过从多个角度分析miRNA相似性度量,获得相似度矩阵,包括MIS、MCIS;miRNA mi和mj之间的综合相似度MS定义如(19)所示:
步骤3中分别对circRNA综合相似度矩阵CS和miRNA综合相似度矩阵MS采用Node2vec算法,计算出circRNA的综合相似度矩阵CNS与miRNA的综合相似度矩阵MNS,具体方法如下:
将CS和MS两个矩阵分别使用Node2vec算法,从全局网络中的某一个节点i出发计算αpq,αpq表示下一步前进位置的概率,每一步面临两个选择,前进或者返回上一个节点;设f(u)是顶点u映射为嵌入向量的映射函数,对于图中的每个顶点u,定义NS(u)为通过采样策略S采样出的顶点u的近邻顶点集合;Node2vec的优化的目标是给定每个顶点条件下,令其近邻顶点出现的概率最大,优化目标表示为(20):
为了将上述最优化问题可解,利用如下两个假设:
·条件独立性假设:假设给定源顶点下,其近邻顶点出现的概率与近邻集合中其余顶点无关,定义如(21)所示:
·特征空间对称性假设:当一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;条件概率公式可表示为(22):
根据以上两个假设条件,最终的目标函数表示为(23):
由于归一化因子Zu的计算代价高,所以采用负采样技术优化,Zu表示为(24):
Node2vec采用一种有偏的随机游走的方式获取顶点的近邻序列;给定当前顶点v,访问下一个顶点x的概率如(25)所示:
其中,πvx是顶点v和顶点x之间的转移概率,即CS和MS,Z是归一化常数;Node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v设πvx=αpq(t,x)·wvx,wvx是顶点v和x之间的边权,dtx为顶点t和顶点x之间的最短路径距离,其每一步的游走策略如(26)所示:
其中p是返回概率,q是出入参数;参数p控制重复访问刚刚访问过的顶点的概率;其中,p仅作用于dtx=0的情况,表示顶点x就是访问当前顶点v之前刚刚访问过的顶点;若p较高,则访问刚刚访问过的顶点的概率会变低,反之变高;q控制着游走是向外还是向内,若q>1,随机游走倾向于访问和t接近的顶点(偏向BFS);若q<1,倾向于访问远离t的顶点(偏向DFS);
经过多次迭代之后,优化目标loss迭代值的差小于10-6,并且相似度向量达到稳定状态,得到最终的相似度矩阵,两个矩阵分别为CNS和MNS;
步骤4中分别把CNS矩阵与MNS矩阵与邻接矩阵A拼接,得到circRNA特征矩阵CF与miRNA特征矩阵MF,具体方法如下:把CNS的每一行与邻接矩阵的每一行拼接成异构矩阵,即CF=[CNS,A];类似地,把MNS的每一行和邻接矩阵的每一列拼接成异构矩阵,即MF=[MNS,AT];
步骤5中通过A矩阵得到异构邻接矩阵Acm,如(27)所示,整合CF、MF矩阵得到异构特征矩阵CM,如(28)所示,具体方法如下:
步骤6中把异构邻接矩阵Acm与异构特征矩阵CM嵌入图注意力网络,通过基于talking-heads与条件随机场算法进行编码,再通过完全矩阵分解算法进行解码得出最终得分矩阵进行预测;
首先,通过构建异构邻接矩阵Acm和特征矩阵CM后,可以通过基于GAT的算法学习circRNA和miRNA的表征;具体来说,对于一个给定的节点,GAT首先学习其邻居的重要性然后根据其邻居的注意力分数融合其表示,随后根据其当前的表示和邻居的融合表示更新其表示;特别是,circRNA ci和miRNA mj之间的关联对的注意分数被表述为式(29):
其中f表示单层前馈神经网络,参数为权重矩阵Wt,对于每一个circRNA的特征,通过初始化方法之后,再使用一维卷积层将输入特征表示转化为circRNA和miRNA的高级特征;表示节点在k(k∈[1,2,...K])头注意表示,l代表特征维度;H1被定义为节点的初始特征矩阵CM;为了使不同节点的注意力得分具有可比性,我们使用式(30)对注意力得分进一步归一化:
考虑到一个circRNAci(或miRNA mj),我们把由其自身和相邻circRNA(或miRNA)组成的子网络称为自我网络;为了给miRNA mj的一阶连接结构建模,通过将对应的注意力分数与节点表征的得分进行累加即可得到miRNA的节点表征矩阵,计算自我网络的线性组合如(31)所示:
我们得到了节点表征hk及其自我网络表征受具有相似功能的微生物倾向于与相似疾病相互作用的假设启发,我们进一步设计了一个基于非线性图神经网络的bi-interaction来聚合hk与这样相似的节点在特征空间中是相似的;我们可以按式(32)、(33)更新嵌入节点的表示矩阵Q:
显然,引入talking-head机制让每一次头结点的输入特征有了高度的融合,但是每次的输出节点却并没有完全分辨出当前节点与邻居节点的关系,让具有较低相似度节点之间产生了过度融合;所以,我们进一步引入条件随机场(CRF层),让头结点每一次经过特征融合的输出后,能够确保相似的circRNA(或miRNA)在特征空间中也是相似的;同时,我们还要求对嵌入进行平滑更新;因此,我们为这个CRF层定义了一个损失函数Lcrf,如(34)所示:
Qi表示从GAT采用了多头机制得到的节点i的初步嵌入,Zi表示在CRF层更新的节点i的嵌入;此外,λ表示节点之间的注意分数,λij衡量邻居节点j对节点i的重要性;Ni是节点i的邻居,而α和β是权重系数,用于平衡第一项和第二项对预测性能的影响,如(35)所示:
其中初始嵌入被设定为Qi,是在第k次迭代中更新的嵌入;通过式(36)激活函数激活之后,节点i和节点j之间的有效注意力λij定义如(37)所示:
aij=att(WtZi,WtZj) (36)
其中att表示执行注意的单层前馈网络,Wt表示一个潜在的可训练矩阵;
我们可以按式(38)更新节点的表示矩阵Z:
Z(k+1)=LeakyReLU(Zc+Bc)+LeakyReLU(Zm+Bm) (38)
为了稳定自我注意的学习过程,基准GAT采用了多头机制;然而,事实上,由于不同头的独立性,以这种方式学习的表征仍然不够丰富;在这里,我们引入了talking-head机制,通过构建不同头之间的依赖关系来加强节点的表示;具体来说,我们把前一个头产生的输出表示作为下一个头的输入特征hk;h1被定义为节点的初步输入特征CM;这种talking-head机制强制执行从头到头的信息传播,这使得模型能够逐步保留高阶邻域的重要性;因此,我们可以通过串联每个头的输出表示,将circRNA头输出矩阵的每一行和miRNA头输出矩阵的每一行拼接,获得circRNA和miRNA的最终表示矩阵如(39)所示:
由于内积很简单,它对捕捉节点之间复杂的关联是有限的,我们引入了完全矩阵分解技术,该技术在建模节点对的关联评分方面有很大的潜力,可以用学到的表征重建新的circRNA-miRNA关联;完全矩阵分解的主要思想是在已知条目的基础上重建一个矩阵,以完成缺失的条目;建立损失函数(40)的同时为circRNA-miRNA关联重建了一个相邻的矩阵S,如(41)所示:
步骤7中使用5折交叉验证进行验证,详细步骤如下:
训练集随机分为5组大小大致相同的子集;每个子集依次用作验证测试数据,其余4个子集用作训练数据;交叉验证过程重复5次,并使用5次的平均性能度量进行性能评估;我们使用多ROC曲线下与坐标轴围成的面积(AUC)来评估性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南林业科技大学,未经中南林业科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210119428.2/1.html,转载请声明来源钻瓜专利网。





