[发明专利]一种分子预测模型的构建方法和计算设备在审
申请号: | 202010968001.0 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112102899A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 王小东;张瑞宁;卢世祺;石方骏;唐麒淳;裴磊;赖力鹏;马健;温书豪 | 申请(专利权)人: | 北京晶派科技有限公司 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/64;G16C20/30;G16C20/70 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分子 预测 模型 构建 方法 计算 设备 | ||
本发明公开了一种分子预测模型的构建方法,适于在计算设备中执行,该计算设备中存储有特征类型集合、特征工程集合和预测模型集合,该方法包括步骤:采集特定分子类型的多条分子数据,该分子数据包括性能数据和至少一种特征数据;从特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合,得到多种组合方式;结合该多条分子数据以及每种组合方式中的特征类型、特征工程和预测模型,对每种组合方式进行训练,得到训练后的模型及模型评价指标;以及根据模型评价指标选取特征类型、特征工程和预测模型的最优组合方式,用于进行同类型分子的性质预测。本发明还一并公开了适于执行该方法的计算设备。
技术领域
本发明涉及药物虚拟筛选领域,尤其涉及一种分子预测模型的构建方法和计算设备。
背景技术
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。
在药物的早期设计阶段,针对某个疾病相关的蛋白质靶点,寻找具有优良活性、成药属性及可合成的药物分子是一个关键工作。而如何能从分子库中快速又准确地筛选出活性优良的药物分子,以实现基于固定靶点的分子化合物活性预测的虚拟筛选,就成为了药物研发工作的重中之重。
发明内容
为此,本发明提供了一种分子预测模型的构建方法和计算设备,以力图解决或至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种分子预测模型的构建方法,适于在计算设备中执行,所述计算设备中存储有特征类型集合、特征工程集合和预测模型集合,该方法包括步骤:采集特定分子类型的多条分子数据,分子数据包括性能数据和至少一种特征数据;从特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合,得到多种组合方式;对于每种组合方式,获取该组合方式中的特征类型所对应的特征数据,采用对应的特征工程对该特征数据进行处理,得到样本输入;以性能数据为样本标签,以预测的性能值为样本输出,对该组合方式中的预测模型进行训练,得到训练后的模型及模型评价指标;以及根据模型评价指标选取特征类型、特征工程和预测模型的最优组合方式,用于进行同类型分子的性质预测。
可选地,在根据本发明的方法中,分子类型包括小分子类型和大分子类型,且大分子类型具有多肽、蛋白质、抗体、聚糖、核酸中的至少一种类型,每种分子类型都有对应的特征类型集合和最优组合方式。
可选地,在根据本发明的方法中,还包括同类型分子的性质预测步骤:确定待测分子所属的分子类型及该分子类型的最优组合方式;从该待测分子数据中提取属于该最优组合方式的特征数据;采用该最优组合方式的特征工程对该特征数据进行处理;以及将处理结果输入到该最优组合方式的预测模型中,得到预测的分子性能。
可选地,在根据本发明的方法中,计算设备还存储有每个预测模型的超参数集合,选取特征类型、特征工程和预测模型进行遍历组合的步骤包括:从特征类型集合、特征工程集合、预测模型集合和各预测模型的超参数集合中任选至少一个特征类型、至少一个特征工程、一个预测模型、以及该预测模型下的至少一个超参数进行遍历组合。
可选地,在根据本发明的方法中,基于特征类型、特征工程、预测模型和预测模型下的超参数生成多维搜索空间,该搜索空间中的每一点代表一个组合方式,以便采用该多条分子数据对每个点进行训练。
可选地,在根据本发明的方法中,多条分子数据被划分为训练集和验证集,所述训练集用于训练预测模型,所述验证集用于输出模型评价指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶派科技有限公司,未经北京晶派科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010968001.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:物品输送装置
- 下一篇:一种数据包生成器及数据包生成方法