[发明专利]基于精细字符分割的场景文本识别方法在审
申请号: | 202110276064.4 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113065561A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 刘义江 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 董金国;黄敬霞 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 精细 字符 分割 场景 文本 识别 方法 | ||
1.一种基于精细字符分割的场景文本识别方法,由处理器执行程序指令实现,该方法包括:
接收规定尺寸的包含场景文本的输入图片;
使用场景文本识别网络中基于全连接结构的字符分割网络将所述输入图片处理为同宽高尺寸的文本分割图,所述文本分割图包含出入图片在各像素的字符分布特征信息;
使用场景文本识别网络中的基于注意力机制的文本识别网络根据所述文本分割图获得所述输入图片的文本识别结果。
2.根据权利要求1所述的场景文本识别方法,其特征在于,所述字符分割网络为基于ResNet的全连接网络。
3.根据权利要求2所述的场景文本识别方法,其特征在于,所述字符分割网络在输出前将其下采样阶段最下层的若干输出特征图通过上采样为与输出等尺寸的特征图并于其最上层的输出特征图进行融合,并以融合结果输出。
4.根据权利要求1所述的场景文本识别方法,其特征在于,所述文本识别网络获得所述输入图片的文本识别结果的方法包括:通过一特征提取器获得所述文本分割图的特征图V,然后使用基于注意力机制的编解码结构对所述特征图V进行识别。
5.根据权利要求4所述的场景文本识别方法,其特征在于,所述特征图V包含沿所述输入图片文字延展方向的最大池化后的特征向量。
6.根据权利要求4所述的场景文本识别方法,其特征在于,所述基于注意力机制的编解码结构包括:由两层的LSTM组成的编码器,以及,由两层的LSTM组成的解码器;所述编码器与所述解码器不共享参数。
7.根据权利要求6所述的场景文本识别方法,其特征在于,所述编码器在每个时间步长接收一列的特征图V,然后沿与文字延伸方向正交的方向进行最大池化;所述编码器,在与特征图V的宽相同的W步之后,LSTM第二层的最终隐藏状态向所述解码器输出;所述最终隐藏状态被视为输入图像的固定尺寸表示,体现输入图片的整体特征。
8.根据权利要求7所述的场景文本识别方法,其特征在于:所述解码器在其时间步骤0接收所述编码器输出的整体特征;然后在其步骤1将开始令牌输入到LSTM;从步骤2开始,上一步的输出被馈送到LSTM直到其收到结束令牌后终止并输出。
9.根据权利要求8所述的场景文本识别方法,其特征在于,所述文本识别网络实现注意力机制的方法在于,根据以下数学模型考虑文本分割图相邻区域的信息,并参与所述解码器解码:
其中,vij表示在文本分割图V中位置(i,j)处的局部特征,Nij是位置(i,j)附近的八个相邻点,即在(i,j)处周围3×3范围内的另外8个点的局部特征,h′t是所述解码器在时间步骤t的隐藏信息,用于作为指导解码的信息;Wv,Wh,和W*是与各自下标有关的需要被更新训练的线性变换矩阵;αij是在位置(i,j)的注意力权重;gt是局部特征的加权和,被当做注意力机制中的glimpse。
10.根据权利要求1所述的场景文本识别方法,其特征在于,在训练阶段,所述场景文本识别网络的损失函数中,字符分割损失函数为基于二分类的交叉熵损失函数,文本识别损失函数为基于真实字符标签的交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276064.4/1.html,转载请声明来源钻瓜专利网。