[发明专利]一种基于ResUNet神经网络的化学结构式分割方法有效
申请号: | 202010419502.3 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111709293B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王毅刚;邵锦涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/413;G06V30/148;G06V10/26;G06V30/19;G06V10/764;G06N3/0464;G06V10/82;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 resunet 神经网络 化学 结构式 分割 方法 | ||
1.一种基于ResUNet神经网络的化学结构式分割方法,其特征在于包括如下步骤:
步骤(1)构造训练集T,训练集T包括手动标注训练集T-1和自动生成训练集T-2两部分;
步骤(2)将训练集T送入ResUNet神经网络进行训练,达到训练指定次数或者Loss曲线不再下降且精度不再提高为止,将训练好的ResUNet神经网络模型保存;
步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割;
所述的训练集T-2是通过一种自动生成化学结构式训练集的方法,基于排版模板的图像随机填充生成训练集,其构建方法包括如下步骤:
a.构造排版模板,在文字区域随机生成文本数据;
b.生成大量化学结构式图像;
c.在排版模板中寻找空白位置随机填充化学结构式图像式并标记。
2.根据权利要求1所述的一种基于ResUNet神经网络的化学结构式分割方法,其特征在于将手动标注出版物中的化学式作为部分训练集T-1,且训练集T-1和训练集T-2的容量比例为1:50。
3.根据权利要求1或2所述的一种基于ResUNet神经网络的化学结构式分割方法,其特征在于所述构造排版模板的方法包括以下步骤:
a-1.手动标定200页出版物中的文字区域,并进行旋转、上下左右反转进行数据扩充,共生成排版模板1000页;
a-2.将互联网文字和随机文本生成器产生的文字作为文本数据,并随机将文本数据填充排版模板中的文字区域。
4.根据权利要求3所述的一种基于ResUNet神经网络的化学结构式分割方法,其特征在于所述生成大量化学结构式图像方法包括以下步骤:
b-1.将PubChem数据库中可用的5700万分子数据,使用Indigo软件随机将其中的部分分子数据渲染成各种类型的256x256像素的3通道PNG格式图像;
b-2.将图像进行角度旋转,上下左右反转的数据扩充操作,共生成10万张小分子化学结构式图像。
5.根据权利要求4所述的一种基于ResUNet神经网络的化学结构式分割方法,其特征在于所述在排版模板中寻找空白位置随机填充化学结构式图像并标记的方法包括以下步骤:
c-1.随机取出生成的化学结构式图像,经过随机缩放比例后放置在文本区域外的空白位置,得到训练集T-2中数据部分;
c-2.逐像素的标记化学结构式图像所占用像素的位置,得到训练集T-2的标签部分。
6.根据权利要求5所述的一种基于ResUNet神经网络的化学结构式分割方法,其特征在于所述ResUNet神经网络为改进后的ResUNet神经网络,其实现为:
将训练集T作为改进后的ResUNet神经网络的输入图像,输入图像为512×512×3大小,经过第一层7×7卷积后输出大小为256×256×64的特征图res-1;接着先使用3×3大小的最大值池化,再经过重复三次1×1大小、3×3大小、1×1大小共9次卷积,输出128×128×256大小的特征图res-2;再接着经过重复四次1×1大小、3×3大小、1×1大小共12次卷积,输出64×64×512大小特征图res-3,接着经过重复六次1×1大小、3×3大小、1×1大小共18次卷积,输出32×32×1024大小特征图res-4;接着经过重复三次1×1大小、3×3大小、1×1大小共9次卷积,输出16×16×2048大小特征图res-5;接着再进行1×1大小卷积,输出16×16×1024大小特征图conv-1;接着进行2×2上采样,将输出特征图up-1与特征图res-4拼接得到32×32×2048大小特征图concat-1;接着进行3×3大小卷积,输出32×32×512大小特征图conv-2;接着进行2×2上采样,将输出特征图up-2与特征图res-3拼接得到64×64×1024大小特征图concat-2;接着进行3×3大小卷积,输出64×64×256大小特征图conv-3;接着进行2×2上采样,将输出特征图up-3与特征图res-2拼接得到128×128×512大小特征图concat-3;接着进行3×3大小卷积,输出128×128×64大小特征图conv-4;接着进行2×2上采样,将输出特征图up-4与特征图res-1拼接得到256×256×128大小特征图concat-4;接着进行3×3大小卷积,输出256×256×64大小特征图conv-5;最后,经过2×2上采样和1×1大小卷积,输出与原输入图像大小对应的512×512×2结果图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419502.3/1.html,转载请声明来源钻瓜专利网。