[发明专利]一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法在审
申请号: | 202210334125.2 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114639440A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 王瑾丰;胡洁;胡海冬;吴兵;任洪强 | 申请(专利权)人: | 南京大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B40/00;G16B50/00;G06N20/00;C12N9/10 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 刘红阳 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 酰基高 丝氨酸 内酯 合成 预测 方法 | ||
1.一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,包括以下步骤:
(1)收集公开并已验证的酰基高丝氨酸内酯合成酶数据,构建酰基高丝氨酸内酯合成酶的蛋白质数据集合;
(2)通过基于蛋白质序列的特征提取算法,提取蛋白质数据集合的特征向量;
(3)在已提取的特征向量中,提取最优特征组合;
(4)选择若干个机器学习算法,基于最优特征组合分别建立模型并进行五折交叉验证实验,比较评估各模型的预测性能以获取最优机器学习算法;构建基于最优机器学习算法和最优特征组合的酰基高丝氨酸内酯合成酶的预测模型;
(5)基于建立的预测模型从高通量待预测蛋白质数据中预测可能的酰基高丝氨酸内酯合成酶。
2.根据权利要求1所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,所述步骤(1)中,酰基高丝氨酸内酯合成酶的蛋白质数据集合包括正例和反例,其中正例来源于数据库或文献中经实验验证的酰基高丝氨酸内酯合成酶数据,反例来源于数据库中经实验验证的革兰阴性细菌中没有群体感应功能的蛋白质数据。
3.根据权利要求1所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,所述步骤(2)中,基于蛋白质序列的特征提取算法包括:氨基酸组成法、氨基酸二肽组成法、氨基酸G间隙二肽组成法。
4.根据权利要求3所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,氨基酸组成法用于表示蛋白质中20种不同的氨基酸各自出现的频率,形成的特征向量表示为:
AAC=[A1,A2,…,A20]
其中,Ai(i=1,2,,…,20)表示第i种氨基酸出现的频率。
5.根据权利要求3所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,氨基酸二肽组成方法用于表示蛋白质中400种不同的相邻氨基酸二元组的各自出现的频率,形成的特征向量表示为:
DPC=[D1,D2,…,D400]
其中,Dj(j=1,2,,…,400)表示第j种相邻氨基酸二元组出现的频率。
6.根据权利要求3所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,氨基酸G间隙二肽组成方法用于表示蛋白质中400种不同的间隙为G的氨基酸二元组的各自出现的频率,形成的特征向量表示为:
其中,表示第q种间隙为g的氨基酸二元组出现的频率。的计算公式为:
7.根据权利要求1所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,所述步骤(3)中,采用两步特征优化方案提取最优特征组合,包括以下步骤:
(301)基于机器学习算法对生成的特征向量依据五折交叉验证的预测性能从大到小进行排序;
(302)基于顺序向前搜索策略,根据排序顺次添加特征向量并组合形成不同的特征向量,比较不同的特征向量的预测性能得到最优的特征组合。
8.根据权利要求1所述的一种基于机器学习的酰基高丝氨酸内酯合成酶的预测方法,其特征在于,所述步骤(4)中,包括以下步骤:
(401)使用不同的机器学习算法,基于最优特征组合建立模型并进行五折交叉验证实验,比较评估预测性能以获取最优机器学习算法;
(402)使用训练集合基于最优特征组合及最优机器学习算法,建立酰基高丝氨酸内酯合成酶的机器学习预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210334125.2/1.html,转载请声明来源钻瓜专利网。