[发明专利]基于卷积神经网络的印刷品字符区域提取方法有效
申请号: | 201711449254.1 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108021914B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 戴琼海;戴威;刘烨斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/46;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 印刷品 字符 区域 提取 方法 | ||
1.一种基于卷积神经网络的印刷品字符区域提取方法,其特征在于,包括以下步骤:
通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;其中,所述卷积神经网络包括五级特征提取器,第一级特征提取器和第二级特征提取器每级分别包含两个卷积ReLU层,第三级特征提取器、第四级特征提取器和第五级特征提取器每级分别包含三个卷积ReLU层,且除了第五级外每级网络后连接一个2*2的最大池化层;在第一个卷积层加入一个35的pad,以将图像宽高均增加70个像素,使得所述第五级特征提取器输出图像满足预设条件,且在每级特征提取器的最后一个ReLU层后连接一个解卷积层,以作为侧边输出,以及随后连接一个裁剪层保证消除padding的影响,且保证侧边输出图像大小和标注图片大小相同;在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数,且通过随机梯度下降法对所述神经网络进行优化;
通过笔画探测器探测图像局部细节;其中,所述通过笔画探测器探测图像局部细节,进一步包括:获取输入图像,得到灰度图;根据所述灰度图遍历图像得到特征点,且对所述特征点进行特征点非极化抑制,以输出多个特征点;其中,所述笔画探测器融合了角点特征与笔画特征,所述笔画探测器用于根据笔画特点提取对应的特征点,以对笔画细节进行识别,所述笔画探测器能从局部笔画信息角度对字符区域进行探测;所述笔画探测器用于探测起止点特征点和拐点特征点,其中,所述起止点特征点包括字符笔画的起点、终点,所述拐点特征点包括探测字符笔画较平滑的拐点;以及
将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域;其中,所述将所述字符候选图像和所述图像局部细节进行融合,进一步包括:对所述字符候选图像二值化;提取包含字符区域的多个轮廓,并根据轮廓区域面积对所述多个轮廓进行降序排列;将笔画特征点根据位置与轮廓进行匹配,并排除面积小于预设阈值且没有特征点的轮廓;对近似矩形的轮廓进行矩形优化处理,并对轮廓进行轻微膨胀操作;通过红线提取出最终字符区域。
2.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述损失函数为:
L=Ls(W,Φ)+Lf(W,Φ,α),
其中,L为总的损失函数,Ls为网络每一级侧边输出的损失函数,W为卷积网络中的参数,Φ为每一级侧边输出分类器的参数,Lf为各级输出融合后的损失函数,α为权重系数。
3.根据权利要求2所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,通过以下公式输出结果:
其中,Yfuse为融合后的输出结果,i为第i级侧边输出,M为共有M级网络,αi为第i级融合时候的权重,为第i级侧边输出的结果,W为卷积网络的参数,Φ(i)为第i级侧边输出分类器的参数。
4.根据权利要求1所述的基于卷积神经网络的印刷品字符区域提取方法,其特征在于,所述预设阈值为80。
5.一种基于卷积神经网络的印刷品字符区域提取装置,其特征在于,包括:
获取模块,用于通过卷积神经网络从整个图像角度对字符区域进行探测,获取字符区域全局感知的字符候选图像;其中,所述卷积神经网络包括五级特征提取器,第一级特征提取器和第二级特征提取器每级分别包含两个卷积ReLU层,第三级特征提取器、第四级特征提取器和第五级特征提取器每级分别包含三个卷积ReLU层,且除了第五级外每级网络后连接一个2*2的最大池化层;在第一个卷积层加入一个35的pad,以将图像宽高均增加70个像素,使得所述第五级特征提取器输出图像满足预设条件,且在每级特征提取器的最后一个ReLU层后连接一个解卷积层,以作为侧边输出,以及随后连接一个裁剪层保证消除padding的影响,且保证侧边输出图像大小和标注图片大小相同;在训练阶段,各个侧边输出以及最后的输出与标注图片计算损失,将各级输出按照可学习的参数比例进行融合输出与标注图片计算损失,两种损失的和为整个网络需要优化的损失函数,且通过随机梯度下降法对所述神经网络进行优化;
探测模块,用于通过笔画探测器探测图像局部细节;其中,所述探测模块,进一步用于:获取输入图像,得到灰度图;根据所述灰度图遍历图像得到特征点,且对所述特征点进行特征点非极化抑制,以输出多个特征点;其中,所述笔画探测器融合了角点特征与笔画特征,所述笔画探测器用于根据笔画特点提取对应的特征点,以对笔画细节进行识别,所述笔画探测器能从局部笔画信息角度对字符区域进行探测;所述笔画探测器用于探测起止点特征点和拐点特征点,其中,所述起止点特征点包括字符笔画的起点、终点,所述拐点特征点包括探测字符笔画较平滑的拐点;以及
提取模块,用于将所述字符候选图像和所述图像局部细节进行融合,以提取出印刷品字符区域;
其中,所述提取模块,具体用于:对所述字符候选图像二值化;提取包含字符区域的多个轮廓,并根据轮廓区域面积对所述多个轮廓进行降序排列;将笔画特征点根据位置与轮廓进行匹配,并排除面积小于预设阈值且没有特征点的轮廓;对近似矩形的轮廓进行矩形优化处理,并对轮廓进行轻微膨胀操作;通过红线提取出最终字符区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711449254.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新的注射用头孢孟多酯钠
- 下一篇:一种菱镁矿尾矿透水混凝土及其制备方法