[发明专利]基于人工智能的基因及基因簇功能预测方法及装置在审
| 申请号: | 202211596221.0 | 申请日: | 2022-12-13 |
| 公开(公告)号: | CN116030881A | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 杨煜清;李常坤 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B30/10;G16B40/20;G06N20/00 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 尉立 |
| 地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 人工智能 基因 功能 预测 方法 装置 | ||
本发明提出一种基于人工智能的基因及基因簇功能预测方法,包括,获取目标基因组的所有蛋白序列;利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;通过预测模型对所有蛋白序列进行目标功能的预测,获取蛋白序列的序列信息功能得分;利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测,获取蛋白序列的结构信息功能得分;将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。本发明为每个感兴趣的功能,针对性的构建数据集和序列预测模型,进行特定功能基因簇的预测、判别和筛选。
技术领域
本发明属于人工智能领域。
背景技术
人体肠道微生物组对于维持人类健康至关重要,与2型糖尿病、肥胖、非酒精性脂肪肝、结直肠癌等多种疾病的发生发展密切相关。人体肠道中累积发现了数千种微生物,肠道菌群编码的基因数量是人体基因数量的150多倍,目前仍有90%的肠道微生物基因功能未知。肠道菌群的快速发展得益于全基因组和宏基因组测序、转录组和蛋白组等技术在人类微生物组领域的应用,使肠道微生物的基因表达、蛋白质丰度和菌株或物种组成等大量菌群信息被挖掘出来,其中包括未知的生物信息和功能数据,生物学家称之为“暗物质”。
微生物序列数据库中数以千计的原核生物基因组通过生物合成基因簇(BGC)编码各种代谢酶类,生物基因簇是一组物理上聚集(在基因组上距离较近)的基因集合。肠道菌群基因簇通过表达酶类、催化肠道消化、代谢纤维素为宿主提供维生素、锻炼脂肪苏等营养物质。而这些背后是由微生物基因组上功能性的基因簇完成的。有一些基因簇已经被解析,且小分子产物合成基因已经异源重组或使用纯化的酶在体外模拟反应,但是绝大多数的基因簇,甚至是那些已知产小分子的基因簇的分布和功能也未完全阐明。然而,人类肠道微生物组中90%的蛋白质序列缺乏功能注释。此外,由于基于序列相似性的计算注释,酶分子功能的错误注释和过度预测在公共数据库中经常发生。可见,功能未知的基因簇信息还有很多是未知的,未知功能基因簇的解析可为新型靶向菌群干预疾病疗法提供借鉴。
目前肠道功能性菌株筛选评价,主要依赖宏基因组测序数据分析-菌株分离-菌株功能验证的路径进行研究。虽然该路径方法成熟,但是耗时耗力。因此需要找到快捷高效的新型研究方法应用于目前海量的生物组数据,并结合体外和体内验证,提高菌株功能研究效率。细菌在次级代谢过程中产生的天然产物具有丰富的化学结构和生物活性,包含着抗生素、抗癌药物和抗病毒药物等多种类型的小分子候选药物,是开展新型药物研发的重要资源。在细菌基因组中,编码各种天然产物合成的基因以生物合成基因簇(BiosyntheticGene Cluster,BGC)的形式存在,为从序列到表型的天然产物发掘奠定了理论基础。
以尿酸代谢功能为例,目前已注释到尿酸酶基因的菌株多来源于土壤、植物病原菌和环境微生物中,相较于人体肠道内数千种微生物,人类肠道菌群中已知的尿酸酶基因簇屈指可数,潜在的参与尿酸代谢的菌株有待挖掘。
当前基因簇数据库信息有限,基于BLAST序列比对进行基因功能挖掘的方法无法有效发现新的基因功能及新的代谢通路,缺乏基于人工智能技术挖掘肠道菌群基因簇新功能的方法,亟需方法学上的创新。对ClusterFinder代表的基于传统机器学习方法的BGC预测工具来说,虽然所采用了隐马尔科夫HMM等方法,但由于算法本身的限制,其检测新型BGC的能力有限。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于人工智能的基因及基因簇功能预测方法,用于进行特定功能基因簇的预测、判别和筛选。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的基因及基因簇功能预测方法,包括:
获取目标基因组的所有蛋白序列;
利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211596221.0/2.html,转载请声明来源钻瓜专利网。





