[发明专利]基于多实例多类标的马尔可夫链注释蛋白质功能的方法有效
申请号: | 201610173526.9 | 申请日: | 2016-03-23 |
公开(公告)号: | CN105653885B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 吴庆耀;谭明奎;陈健;韩超;宋恒杰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多实例多类标的马尔可夫链注释蛋白质功能的方法,所述方法包括:从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。本发明使用多实例多类标学习框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学习马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。 | ||
搜索关键词: | 基于 实例 标的 马尔可夫链 注释 蛋白质 功能 方法 | ||
【主权项】:
1.基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其特征在于:包括以下步骤:S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;具体包括:S21分别计算每两个蛋白质之间的最大、最小和平均Hausdorff距离,三种距离的具体定义如下:a、最大Hausdorff距离
b、最小Hausdorff距离
c、平均Hausdorff距离
其中,Xi是数据集中第i个蛋白质,x(i)是蛋白质的第i个结构域,|·|表示蛋白质中结构域的个数,mindis(x(j),Xi)的定义如下:
其中,||·||表示两个结构域之间的欧式距离;S22、每两个蛋白质之间的Hausdorff距离取三种距离的均值,均值的计算公式具体如下:
所述的使用距离的倒数作为蛋白质之间的相似性度量,具体公式如下:
S3、使用已经注释功能的蛋白质数据学习马尔可夫链模型,具体的学习步骤如下:S31、十折交叉验证将已经注释功能的蛋白质数据集平均分成十份,依次将每份作为测试集,其余作为训练集,测试当前参数设置下模型的性能;S32、初始化1)类标概率转移矩阵将已经注释功能的蛋白质数据集中蛋白质之间的Hausdorff相似性矩阵P列归一化;2)类标概率分布矩阵
其中,Dtrain和Dtest分别是蛋白质的训练数据集和测试数据集,Ci表示第i个蛋白质的功能集,L表示蛋白质的功能集,Lj表示第j个功能;3)已知的类标分布矩阵
将已知的类标分布矩阵Q行归一化;S33、稀释类标概率分布矩阵将类标概率分布矩阵D行归一化,使用稀释函数fs稀释类标概率分布矩阵,具体公式如下:
其中,Rank(Dij)是蛋白质i具有功能j的概率,m是稀释参数,表示蛋白质属于功能的概率的可信个数;S34、学习马尔可夫链模型D=(1‑α)Pfs(D)+αQ其中,D是蛋白质类标概率分布矩阵,P是类标概率转移矩阵,Q是已知的类标分布矩阵,α是初始类标信息的比例参数fs(D)是类标概率分布矩阵的稀释函数;S35、学习终止条件如果||Dt‑Dt‑1||<∈,学习终止,保存参数α、m和∈;否则t=t+1,回到步骤S33;其中t是计算的第t个类别概率分布矩阵,初始值为0,∈是两个矩阵的偏差;S36、模型性能测试根据最终计算的类标概率分布矩阵注释测试集中蛋白质的功能,并和实际的注释功能做对比,使用多类标评估函数度量当前参数设置下模型的性能;S37、选择最优模型使用参数α、m和∈的不同值计算蛋白质的类标概率分布矩阵,选择模型性能最优时的参数设置作为最终的注释蛋白质功能的模型参数值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610173526.9/,转载请声明来源钻瓜专利网。