[发明专利]基于迁移学习的生物大分子体系数据库构建方法及系统在审
申请号: | 202210880897.6 | 申请日: | 2022-07-26 |
公开(公告)号: | CN115171794A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 李金金;汪志龙;韩彦强 | 申请(专利权)人: | 上海茵肽信息科技有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 201400 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 迁移 学习 生物 大分子 体系 数据库 构建 方法 系统 | ||
本发明涉及一种基于迁移学习的生物大分子体系数据库构建方法及系统。该方法包括:获取生物大分子数据建模的原任务和目标任务;根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度,确定迁移类型;所述迁移类型包括纵向迁移、横向迁移以及交叉迁移;基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型;基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型;根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库。本发明能够降低成本,提高生物大分子体系数据库的通用性。
技术领域
本发明涉及数据库构建领域,特别是涉及一种基于迁移学习的生物大分子体系数据库构建方法及系统。
背景技术
生物大分子是指生物体细胞内存在的蛋白质、DNA、RNA、多肽、多糖等大分子。生物大分子是生物体的重要组成成分,其复杂结构决定了它们的特殊性质,它们在体内的运动和变化体现着重要的生命功能。如进行新陈代谢供给维持生命需要的能量与物质、传递遗传信息、控制胚胎分化、促进生长发育、产生免疫功能等。因此,生物大分子结构和功能的研究一直以来都是一个非常重要且具有挑战性的研究课题。当前,基于经验、半经验、力场和量子力学计算方法以及实验测量技术在生物大分子体系中的应用场景可以分为三大类:
(1)独立生物大分子体系的研究(如蛋白质、DNA、RNA、多肽、多糖的稳定性、活性的评估、结构预测等);
(2)生物大分子和小分子/离子体系相互作用的研究(如蛋白质与药物小分子之间的相互作用、酶和金属化合物之间的相互作用等);
(3)生物大分子之间相互作用的研究(如蛋白质与蛋白质之间的相互作用、酶与肽链之间的相互作用、蛋白质与多肽类药物之间的相互作用等)。
在过去的几十年里,经验和半经验等计算方法已被广泛用于生物大分子研究,在原子水平上的生物大分子结构预测取得了革命性进展,但是,这些方法的计算精度限制于原子和分子水平,无法在电子结构水平上对生物大分子结构稳定性以及相互作用进行精确地计算和解释,更无法满足对生物大分子体系进行从头算动力学模拟的需求。量子力学方法能够准确描述原子体系的电子结构,而不依赖与任何经验参数,从而被认为是物理学、化学和生物学中最可靠的计算方法。然而,量子力学方法的时间复杂度非常高,导致计算的成本很大,极大地阻碍了全体系量子力学计算在生物大分子中的应用。此外,基于实验测量手段的生物大分子体系研究也需要耗费巨大的资源和成本。这些挑战进一步造成了当前具有高保真度的生物大分子体系数据库难以建立,阻碍了生物信息学和生命科学的快速发展。
机器学习的应用与发展为生物大分子体系的研究开辟了新的途径。机器学习旨在通过大数据挖掘和模式识别,从海量的生物大分子体系数据中挖掘潜在的物理化学机制,并建立高精度、高效率的构效关系,来预测生物大分子的性质以及设计理想的生物大分子。一旦机器学习模型建立完成,利用模型完成预测的时间和成本可忽略不计。但是,机器学习在生物大分子建模与数据库开发中仍然存在重大的挑战:
(1)利用高精度量子力学或实验测量方法获得的高保真度数据集所需要的成本过高。如使用经验力场计算生物大分子力场,所需要的计算成本低,但模型的精度也低;如使用ωB97XD/6-31G*泛函计算生物大分子的力场,计算成本和模型的精度都升高;而使用双杂化泛函DSD-BLYP/def2-TZVPP计算生物大分子的力场,计算成本和模型的精度都非常高。因此,使用机器学习建模为了达到较高的预测精度,往往需要足够多的、使用高精度泛函计算或实验测量的高保真数据来捕捉结构和生物大分子势能面之间的相关性,这不可避免地在数据标注上消耗大量的时间成本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海茵肽信息科技有限公司,未经上海茵肽信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210880897.6/2.html,转载请声明来源钻瓜专利网。