[发明专利]一种基于强化学习的路径可控的药物分子生成方法有效
| 申请号: | 202011168563.3 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112331277B | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 李成涛;柳俊宏 | 申请(专利权)人: | 星药科技(北京)有限公司 |
| 主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/10;G16C20/70 |
| 代理公司: | 北京中南长风知识产权代理事务所(普通合伙) 11674 | 代理人: | 郑海 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 路径 可控 药物 分子 生成 方法 | ||
1.一种基于强化学习的路径可控的药物分子生成方法,其特征在于,由初始分子R0,通过Agent寻找最佳反应模版T0和反应物a0,再通过environment搜索与最佳反应物相似的反应物集,返回该集合中受益最大的中间反应产物R1,同时将中间产物加入分子库中,反复循环,直至搜索结束找到最佳反应产物;具体过程如下:
(1)在分子库中选取一个小分子作为初始状态R0,并令当前状态Rt=R0;
(2)将当前状态Rt通过Agent得到反应模版Tt及对应的反应物at,并计算当前反应物at的Q值;
(3)在环境中通过k最近邻算法寻找反应库中与at相似的k个反应集{ak};
(4)Rt按照模版Tt分别与{ak}中的每一种反应物反应,并将得到的产物通过评价函数,计算长期收益包含历史Q值,返回最大收益所对应的产物Rt+1及对应收益的中间产物;Rt+N是N次反应的对应的产物;
(5)进行多次步骤(2)-(4)agent和environment的筛选得到反应模版及对应的反应物,并计算每个中间产物的Q值;
(6)根据(1)-(5)的过程,分析Q值,筛选反应模板及最佳反应物,得到最高收益的分子生成路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星药科技(北京)有限公司,未经星药科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011168563.3/1.html,转载请声明来源钻瓜专利网。





