[发明专利]一种基于全卷积神经网络的文本行中的字符切分方法有效
申请号: | 201910801512.0 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110503103B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘晋;余超 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 文本 中的 字符 切分 方法 | ||
1.一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述方法包括:
获取待检测的文本行图像区域;
采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
获取所述分类结果中属于同一类别的分类结果;
对所述同一类别的分类结果进行区域划分,获得划分结果;
根据划分结果,获得文字切分结果;
所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:
根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;
根据语义分割模型中的解码器,对文字边缘特征信息进行空间位置还原和像素分类;
所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:
对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;
获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记;
所述根据划分结果,获得文字切分结果的步骤,包括:
根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数,其中,所述位置参数包括:位置,高度和宽度;
根据所述位置参数,确定文字所在的最小的矩形区域;
所述根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数的步骤,包括:
根据文字和矩形框的对应关系,得到每个文字范围区域的四个边界,其中,所述四个边界为该文字所对应的上边界、下边界、左边界和右边界;
根据坐标位置,计算文字字符块的高度和宽度。
2.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述获取待检测的文本行图像区域的步骤,包括:
获取待检测文本图像;
对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;
将所述单行文本行所组成的区域确定为待检测的文本行图像区域。
3.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,语义分割模型的训练方法包括:
接收样本图像和样本的标注信息;
将样本图像输入神经网络中,获得预测结果;
将所述预测结果与样本图像的标注信息进行损失函数的比较,获得损失值;
根据损失值和随机梯度下降法,对神经网络中各个节点进行反向传播,并修改节点权重;
根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络,获取语义预测模型。
4.根据权利要求3所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述语义预测模型的条件随机场所使用的能量函数表达为:
θi(xi)=-logP(xi)
其中,θi(xi)为一元势函数,P(xi)为语义分割模型输出的像素i的结果类别的概率值,θij(xi,xj)为二元势函数,f(xi,xj)用于判断i和j是否是同一个像素,如果是则函数输出为0,否则输出为1,是两个高斯滤波器,pi代表像素i的位置坐标,gi代表像素i的灰度值,三个超参数控制高斯滤波器的缩放尺度大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801512.0/1.html,转载请声明来源钻瓜专利网。