[发明专利]一种基于ResUNet神经网络的化学结构式分割方法有效
申请号: | 202010419502.3 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111709293B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王毅刚;邵锦涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/413;G06V30/148;G06V10/26;G06V30/19;G06V10/764;G06N3/0464;G06V10/82;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 resunet 神经网络 化学 结构式 分割 方法 | ||
本发明公开了一种基于ResUNet神经网络的化学结构式分割方法。本发明步骤如下:步骤(1)构造训练集T,训练集T包括手动标注训练集T‑1和自动生成训练集T‑2两部分;步骤(2)将训练集T送入ResUNet神经网络进行训练,达到训练指定次数或者Loss曲线不再下降且精度不再提高为止,将训练好的ResUNet神经网络模型保存;步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割。本发明在ResUNet神经网络基础上,提出一种改进的ResUNet神经网络,同时,提出一种自动生成大量化学结构式训练集的方法进行训练集的生成,从而使ResUNet神经网络能够对化学结构式进行分割,达到以大量数据提升神经网络识别精度的目的。
技术领域
本发明属于计算机检测技术领域,具体涉及一种基于ResUNet神经网络的化学结构式分割方法,本发明在ResUNet神经网络基础上,提出一种改进的ResUNet神经网络,同时,提出一种自动生成大量化学结构式训练集的方法进行训练集的生成,从而使ResUNet神经网络能够对化学结构式进行分割,达到以大量数据提升神经网络识别精度的目的。
背景技术
科学实验通常至关重要的一部分是快速处理和吸收新获得的数据。此外,新的研究方法也离不开收集、分析和利用先前发表的实验数据。这对于小分子药物的发现尤其适用,其中实验测试的分子集合用于虚拟筛选程序、定量结构活性/性质关系(QSAR/QSPR)分析或基于物理建模方法的验证。由于产生大量实验数据的难度和费用,许多药物发现项目被迫依赖于相对较小的内部实验数据库。解决药物发现中普遍缺乏适当的训练集数据的一个有希望的解决方案是利用目前正在发表的数据。Medline报告每天发表超过2000多篇新的生命科学论文,鉴于新的实验数据以如此高的速度进入公共文献,解决与数据提取和管理相关的问题,并尽可能地自动化这些过程变得越来越重要。生命科学中从公开的来源,如期刊文章和专利文件中提取化学结构仍然是困难和非常耗时的。
目前,大量书籍和其它出版物依然只有纸质版或扫描版可得,造成重用上的困难。一方面,纸质版或扫描版的材料不便于进行检索,导致分散在大量文献中的信息不容易被发现,从而得不到充分利用。另一方面,对这些材料进行进一步处理涉及繁琐和易误的重新输入工作。
化学结构式识别的研究进展缓慢,主要原因是:一、在文档中公式被自然语言环绕,难以定位;二,由于化学结构式结构复杂,符号种类繁多且字体多样、大小不一,具有非规则性,逻辑性,复杂性等特征。
目前的化学结构式的识别方法都分为两个步骤:一、将化学结构式从自然语言中定位并分割出来;二、将分割出的化学结构式送入识别引擎中进行识别。其中,当前的化学结构式分割方法基本上是基于传统图像处理方法来完成的,其分割准确度较低,并无法处理一些如自然语言和化学分子式距离较近等特殊情况。
发明内容
基于此,为了提高化学结构式的定位与分割准确度,本发明在 ResUNet神经网络基础上,提出一种改进的ResUNet神经网络,同时,提出一种自动生成大量化学结构式训练集的方法进行训练集的生成,从而使ResUNet神经网络能够对化学结构式进行分割,达到以大量数据提升神经网络识别精度的目的。
一种基于ResUNet神经网络的化学结构式分割方法,包括如下步骤:
步骤(1)构造训练集T,训练集T包括手动标注训练集T-1和自动生成训练集T-2两部分。其中,手动标注出版物中的化学式作为部分训练集T-1,并使用一种自动生成化学结构式训练集的方法生成训练集T-2,训练集T-1和训练集T-2的容量比例为1:50;
步骤(2)将训练集T送入改进的ResUNet神经网络进行训练,达到训练指定次数或者Loss曲线不再下降且精度不再提高为止,将训练好的ResUNet神经网络模型保存;
步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419502.3/2.html,转载请声明来源钻瓜专利网。