[发明专利]化合物分类方法及相关设备在审
申请号: | 202010917059.2 | 申请日: | 2020-09-03 |
公开(公告)号: | CN111986740A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李恬静;朱威 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/90;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 迟珊珊;何春兰 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 化合物 分类 方法 相关 设备 | ||
本发明涉及人工智能技术领域,提供一种化合物分类方法及相关设备。所述化合物分类方法包括:获取样本化合物的基于化合物性质的第一标签向量;将样本化合物的第一原子表示转化为第一原子向量序列,将第一原子表示对应的缺失原子转化为第一原子表示的第二标签向量;根据第一标签向量和性质特征向量训练由特征提取模型和第一分类模型构成的性质分类模型,根据第二标签向量和缺失原子向量训练由特征提取模型和第二分类模型构成的缺失原子预测模型;用训练后的性质分类模型以目标化合物的第二原子向量为输入,对目标化合物进行分类。本发明提升对化合物进行分类的效率。
技术领域
本发明涉及人工智能技术领域,具体涉及一种化合物分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
化合物分类是许多生物、化学工作的基础。在传统的化合物分类方法中,需要生物学家、化学家利用专业知识对化合物进行分类。
如何基于人工智能对化合物进行分类,以提升分类效率,是待解决的问题。
发明内容
鉴于以上内容,有必要提出一种化合物分类方法、装置、计算机设备及计算机可读存储介质,其可以对化合物进行分类,提升对化合物进行分类的效率。
本申请的第一方面提供一种化合物分类方法,所述化合物分类方法包括:
获取样本化合物的第一原子表示,获取所述样本化合物的基于化合物性质的第一标签向量和所述第一原子表示对应的缺失原子;
将所述第一原子表示转化为第一原子向量序列,将所述缺失原子转化为所述第一原子表示的第二标签向量;
通过特征提取模型以所述第一原子向量序列为输入,提取所述化合物的原子特征,得到所述样本化合物的特征向量序列;
通过第一分类模型根据所述特征向量序列计算所述样本化合物的性质特征向量,用第二分类模型根据所述特征向量序列计算所述样本化合物的缺失原子向量;
根据所述第一标签向量和所述性质特征向量训练由所述特征提取模型和所述第一分类模型构成的性质分类模型,根据所述第二标签向量和所述缺失原子向量训练由所述特征提取模型和所述第二分类模型构成的缺失原子预测模型;
获取待分类的目标化合物的第二原子表示;
将所述第二原子表示转化为第二原子向量序列;
通过训练后的性质分类模型以所述第二原子向量为输入,对所述目标化合物进行分类。
另一种可能的实现方式中,所述获取样本化合物的第一原子表示包括:
获取所述样本化合物的简化分子线性输入规范表示;或
获取所述样本化合物的分子指纹表示;或
获取所述样本化合物的基于国际化合物标识表示。
另一种可能的实现方式中,所述将所述第一原子表示转化为第一原子向量序列包括:
获取所述第一原子表示中的每个原子的编码子向量、位置子向量、图结构子向量;
拼接所述第一原子表示中的每个原子的编码子向量、位置子向量、图结构子向量,得到所述第一原子表示中的每个原子的第一原子向量;
组合所述第一原子表示中的多个原子的第一原子向量,得到所述第一原子向量序列。
另一种可能的实现方式中,所述特征提取模型包括BERT模型、RNN模型或Transformer模型。
另一种可能的实现方式中,所述通过第一分类模型根据所述特征向量序列计算所述样本化合物的性质特征向量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010917059.2/2.html,转载请声明来源钻瓜专利网。