[发明专利]一种基于全卷积神经网络的文本行中的字符切分方法有效
申请号: | 201910801512.0 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110503103B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘晋;余超 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 文本 中的 字符 切分 方法 | ||
本发明公开了一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:获取待检测的文本行图像区域;采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;获取所述分类结果中属于同一类别的分类结果;对所述同一类别的分类结果进行区域划分,获得划分结果;根据划分结果,获得文字切分结果。应用本发明实施例,能够有效的避免复杂背景区域以及噪声的干扰,对大小,间距不统一的多语言文字混和的文本行图像进行精确的字符切分。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于全卷积神经网络的文本行中的字符切分方法。
背景技术
随着移动终端和移动互联网的快速发展与广泛普及,通过摄像录像进行资讯的获取,分享和检索成为了现代人们的日常生活方式。在通过摄像头所获得的图像信息中,文字信息往往是用户首先会去注意和理解的内容,因此,通过识别图像中的文字信息能够使用户更方便的理解图片,同样也可以使图像文字转化为语音方便人们感受。
近年来,文本行的文字分割和识别是通过传统的图像处理方式进行,处理前需要经过大量的预处理,包括降噪,增强对比度,灰度化,二值化等。文字切割包括:连通域算法,识别则通过规则和特征的匹配进行。
由于人工设定的阈值,特征,规则受较多的主观因素影响,通用性较差,对于多种变化的复杂场景,包括:背景遮挡文字,切分文字,污损文字,粘连文字,传统的字符切分方法往往不尽人意。另外文字的形态变化如:艺术字,手写字,渐变色文字会对规则特征匹配产生较大的影响。因此,传统的字符切分方法在对复杂背景下的文本行中的字符进行切分时很容易会产生字符过切、漏切、错切等问题,导致字符切分的准确率较低。
发明内容
本发明的目的在于提供一种基于全卷积神经网络的文本行中的字符切分方法,旨在解决现有的字符进行切分时出现字符过切、漏切、错切的问题,通过将文本行图像缩放至不同尺度与对应大小的上采样层进行跳跃连接,以还原得到初始分辨率的特征信息图,在此过程中高级的语义特征信息和低级的边缘特征信息都能够保留。
为了实现上述目的,本发明提供一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:
获取待检测的文本行图像区域;
采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
获取所述分类结果中属于同一类别的分类结果;
对所述同一类别的分类结果进行区域划分,获得划分结果;
根据划分结果,获得文字切分结果。
进一步的,所述获取待检测的文本行图像区域的步骤,包括:
获取待检测文本图像;
对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;
将所述单行文本行所组成的区域确定为待检测的文本行图像区域。
进一步的,所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:
根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;
根据语义分割模型中的解码器,对所述文字边缘特征信息进行空间位置还原和像素分类。
进一步的,所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:
对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;
获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记。
进一步的,所述根据划分结果,获得文字切分结果的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801512.0/2.html,转载请声明来源钻瓜专利网。