[发明专利]一种全新的分布式和私有化miRNA‑疾病联系预测方法在审

专利信息
申请号: 201710902242.3 申请日: 2017-09-29
公开(公告)号: CN107658029A 公开(公告)日: 2018-02-02
发明(设计)人: 陈立鑫;颜成钢;刘炳涛;周东 申请(专利权)人: 杭州电子科技大学
主分类号: G16H50/70 分类号: G16H50/70;G06F19/22
代理公司: 杭州君度专利代理事务所(特殊普通合伙)33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种全新的分布式和私有化miRNA‑疾病联系预测方法。本发明首先DPFMDA收集、分析和估计代表miRNA和疾病关系的矩阵因子,通过在分布式数据集之间交换信息来提高预测精度;其次,DPFMDA只需要积极的样本,其性能不容易受数据稀疏的影响。来自分布式数据集的矩阵因子用于生成公共参考因子;第三,DPFMDA是一个分布式和私有化的框架,它完美实现和促进了不同生物医学数据库之间的合作。生物医学研究将从这些预测结果中受益。
搜索关键词: 一种 全新 分布式 私有化 mirna 疾病 联系 预测 方法
【主权项】:
一种全新的分布式和私有化miRNA‑疾病联系预测方法,其特征在于包括如下步骤:步骤1、数据的输入;首先,为了获得miRNA与疾病之间的关联,采用三种矩阵作为输入,分别表示miRNA‑疾病关联性、miRNA功能相似性和疾病语义相似性;构建关联矩阵A以描述miRNA‑疾病关联性;A(d(i);m(j))=1表示miRNAm(j)经实验证实与疾病d(i)相关,否则关联未确认;使用变量nm,nd来表示数据库中miRNA和疾病的数量;miRNA功能相似性的矩阵定义为FS;FS是一个对称矩阵,其对角线全部为1;FS(m(i);m(j))的合理范围在0和1之间,其表示miRNAm(i)和miRNAm(j)之间的相似程度;疾病之间的关系从MeSH数据库(http://www.ncbi.nlm.nih.gov/)获得,那么疾病能够被描述为DAG;对于疾病D,定义DAG(D)=(D;T(D);E(D)),其中节点集T(D)包含疾病节点本身及其祖节点,E(D)表示父节点直接到子节点;疾病D的语义价值计算如下:DV1(D)=Σd∈T(D)DDd---(1)]]>DD(d)=1;ifd=DDD(d)=max{Δ*DD(d′)|d′∈childrenofd}ifd≠D---(2)]]>其中Δ是语义贡献衰落因子;疾病越多,它们之间的语义相似度就越小;语义贡献随着DAG疾病之间距离的增加而减小;疾病对自身语义价值的贡献是1;疾病语义相似性评分测量不同疾病DAG之间共享部分的大小;语义相似性的矩阵SS1定义如下:SS1(d(i),d(j))=Σt∈T(d(i)∩T(d(i))(Dd(j)(t)+Dd(j)(t))DV1(d(j))+DV1(d(j))---(3)]]>SS1是对角矩阵,全部为1;将SS1(d(i);d(j))的值缩放到表示疾病d(i)和疾病d(j)之间的功能相似性得分的范围[0,1];考虑到疾病语义相似度的模型1,DAG(D)相同深度的疾病对D具有相同的语义贡献;但是,所有DAG中出现哪些疾病的频率是不同的;出现较少的疾病,比其他疾病对D有更多的贡献,因为它更具体;疾病语义相似度的模型2中的疾病D的语义价值计算如下:DV2(D)=Σd∈T(D)DD′(d)---(4)]]>D′D(d)=‑log(the number of DAGs including d/nd)     (5)疾病语义相似性评分测量不同DAG之间共享部分的大小;语义相似性的矩阵SS2定义如下:SS2(d(i),d(j))=Σt∈T(d(i)∩T(d(i))(Dd′(j)(t)+Dd′(j)(t))DV2(d(j))+DV2(d(j))---(6)]]>疾病语义相似度的最终语义相似性矩阵是计算上述两个语义相似性矩阵SS1和SS2的平均值,并定义如下:SS=SS1+SS22---(7)]]>步骤2、预测疾病和miRNA之间可能存在的现有关联;考虑到已知miRNA水平关联网络的拓扑信息,二元向量IP(d(i))用于表示疾病d(i)的相互作用谱;对于每个已知的相关miRNA,IP(d(i))中的位置被设置为1,然后,高斯核被用于根据它们的交互特征来计算疾病之间的相似性得分如下:KD(d(i),d(j))=e-γd||IP(d(i))-IP(d(j))||2---(8)]]>γd=γd′ndΣndi=1||IP(d(i))||2---(9)]]>参数γ′d是所有疾病相关的miRNA的平均数量,nd是数据库中疾病的数量,IP(d(i))用于表示疾病d(i)的相互作用谱,γd是归一化带宽参数,用于通过考虑每种疾病的miRNA‑疾病关联的平均数量来控制内核带宽;类似于高斯相互作用剖面核对于疾病相似性的计算,miRNA的高斯相互作用轮廓核相似性定义如下:KM(m(i),m(j))=e-γm||IP(m(i))-IP(m(j))||2---(10)]]>γm=γm′nmΣnmi=1||IP(m(i))||2---(11)]]>定义了相互作用谱IP(m(i)),以鉴定miRNA m(i)是否与每种疾病相关;参数γ′m是所有miRNA相关的疾病的平均数量,nm是数据库中miRNA的数量,IP(m(i))用于表示miRNAm(i)的相互作用谱,γm是归一化带宽参数,用于通过考虑每个miRNA的miRNA‑疾病关联的平均数来控制内核带宽;最后,疾病Sd的综合相似性是通过将疾病语义相似度SS和疾病KD的高斯相互作用概况核相似度相结合来构建的;Sd定义如下:Sd(d(i),d(j))=SS1(d(i),d(j)+SS2(d(i),d(j))2ifd(i)andd(j)hassemanticsimilarityKD(d(i),d(j)),otherwise---(12)]]>类似地,miRNASm的整合相似性如下:Sm(m(i),m(j))=FS(m(i),m(j),ifd(i)andd(j)hassemanticsimilarityKM(m(i),m(j),otherwise---(13)]]>步骤3、建立矩阵;基于语义相似性的疾病倾向于与功能相似的miRNA相关的假设,使用长度等级的特征向量来表示疾病或miRNA,其中秩是凭经验确定的;然后,nm种miRNA表示为具有nm行、nm列的miRNA特征矩阵M,并且将nd种疾病表示为具有nd行、nm列的疾病特征矩阵D;3‑1.使用OCCV使每个输入矩阵执行因式分解,并独立生成两个矩阵因子;在矩阵A和A(d(i);m(j))=0中只存在一个阳性类,表示可能为阳性或阴性的miRNA疾病关联是未知的;因为应用正态分解将会使性能下降,所以使用加权交替最小二乘法将A分解为D0×R0;生成与A形状相同的置信矩阵W;如果A中相同位置的值为1,则W的值设置为1,否则将该值设置为C;C代表这个值是否为阴性的置信度;取中立值,C设定为0.5;λ,λd,λm是正则化参数,通过权重训练速度和收敛设置为0.1;优化目标函数定义如下:minD0M0(||W·(A-D0×M0)||2+λ(||D0||2+||M0||2))---(14)]]>加权交替最小二乘方程推导如下:D0(d(i),:)=A(d(i),:)Wd(i,:)M0(M0TWd(i,:)M0+λ(ΣjW(i,j))I)-1,∀1≤d(i)≤nd---(15)]]>M0(m(i),:)=A(:,m(j))TWd(:,j)D0(D0TWd(:,j)D0+λ(ΣjW(i,j))I)-1,∀1≤m(j)≤nm---(16)]]>I是单位矩阵;当连续更新之间的L2范数差小于ε=0.01时,D0和M0的递归更新停止;Sd使用交替的最小二乘法分解成D1×D2;优化目标函数定义如下:minD1D2(||Sd-D1×D2||2+λ(||D1||2+||D2||2))---(17)]]>交替的最小二乘方程推导如下:D1(d(i),:)=Sd(d(i),:)D2(D2TD2+λdI)-1,∀1≤d(i)≤nd---(18)]]>D2(d(j),:)=Sd(:,d(j))TD1(D1TD1+λdI)-1,∀1≤d(j)≤nd---(19)]]>通过等式(18)和(19)执行D1和D2的重复更新,直到两次连续更新之间的L2范数小于ε=0.01;使用交替的最小二乘法将Sm分解成M1×M2;M1和M2的计算类似;优化目标函数和交替最小二乘方程如下:minM1M2(||Sm-M1×M2||2+λ(||M1||2+||M2||2))---(20)]]>M1(m(i),:)=Sm(M(i),:)M2(M2TM2+λmI)-1,∀1≤m(i)≤nm---(21)]]>M2(m(j),:)=Sm(:,M(j))TM1(M1TM1+λmI)-1,∀1≤m(j)≤nm---(22)]]>M1和M2的反复更新用等式(21)和(22)进行,直到两次连续更新之间的L2范数差值小于ε=0.013‑2.用D0,D1,D2组成节点矩阵[D0;D1;D2],以尽可能完全地获得疾病信息;类似地,节点矩阵[M0;M1;M2]表示miRNA的特征由M0,M1,M2组成;矩阵分解不是唯一的,并且对由矩阵因子列引起的列空间,执行奇异值分解以产生参考因子;因此,上述两个节点矩阵被分解以获得代表最重要特征的参考因子Dr和Mr;计算公式如下:[D0,D1,D2]=DrΣV                 (23)[M0,M1,M2]=MrΣV                 (24)3‑3.参考因子从多个数据集中获得更多信息,重新计算特征矩阵M和D的估值;两个额外的正则化项被添加到成本函数中;成本函数定义如下:minD0M0(||W·(A-D0×M0)||2+λ(||D0||2+||M0||2))+λd(||D0||2+||Dr||2)+λm(||M0||2+||Mr||2)---(25)]]>加权交替最小二乘方程推导如下:D′(d(i),:)=(A(d(i),:)Wd(i,:)M′+λdDr(d(i),:))(M′TWd(i,:)M′+(λd+λ(ΣjW(i,j))I)-1,∀1≤d(i)≤nd---(26)]]>M′(m(j),:)=(A(:,d(j))TWd(:,j)D′+λmMr(m(j),:))(D′TWd(:,j)D′+(λd+λ(ΣiW(i,j))I)-1,∀1≤m(j)≤nm---(27)]]>收敛后,利用特征矩阵D′和M′最终估计的乘积来回归得分矩阵F;根据F矩阵得出该miRNA‑疾病的关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710902242.3/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top