[发明专利]一种基于卷积神经网络的屏幕渲染文本识别方法在审
申请号: | 201810446940.1 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108710882A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 徐新;周军;穆楠 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06F17/28;G06N3/04 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 刘艳艳 |
地址: | 430081 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 屏幕 卷积神经网络 渲染图像 单个字符 文本识别 渲染 文本块 文本行 检测 二值化图像 传统文字 低分辨率 文字识别 中文字符 二值化 鲁棒性 小字体 校正 一体化 分割 引入 | ||
1.一种基于卷积神经网络的屏幕渲染文本识别方法,其特征在于,包括如下步骤:
(1)对屏幕渲染图像进行二值化;
(2)从二值化图像中检测出文本块;
(3)对检测得到的文本块进行组合,组成文本行;
(4)从文本行中提取出单个字符;
(5)对提取出的单个字符中误分割的字符进行校正;
(6)采用卷积神经网络对单个字符进行识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,对屏幕渲染图像进行二值化的具体步骤如下:
(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间:
其中,R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值,Gray(x,y)表示对应点上的灰度值,N和M分别表示图像的高度和宽度;
(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像:
其中,v(x,y)是图像中每个像素点的灰度值,T(x,y)是二值化之后的值;
(1.3)采用颜色反转技术,将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字:
其中,F(x,y)是颜色反转之后的值。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤(2)中,从二值化图像中检测出文本块的具体步骤如下:
(2.1)对经过步骤(1)处理后的图像进行横向膨胀操作,将图像中每一行的字符相连,组成文本块:
其中,G(x,y)是膨胀之后的值,N和M分别表示图像的高度和宽度;
(2.2)对图像进行连通域检测,定位经过步骤(2.2)处理后图像中的文本块。
4.根据权利要求3所述的方法,其特征在于,所述步骤(3)中,对检测得到的文本块进行组合,组成文本行,其具体步骤如下:
采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起,组成文本行:通过计算两个连通域矩形的距离来判断两个连通域是否在同一行,在同一行就将两个连通域合并。
5.根据权利要求4所述的方法,其特征在于,设两个连通域矩形的距离为h,所述h为5个像素。
6.根据权利要求1或2或4或5所述的方法,其特征在于,所述步骤(4)中,从文本行中提取出单个字符的具体步骤如下:
针对经过步骤(3)处理后图像中的每一个文本行,使用垂直投影法分割出单个字符:
通过遍历每一列,得到所有的分割线,分割线由下面公式决定:
其中,S(x)表示该处是否可分割,N和M分别表示图像的高度和宽度。
7.根据权利要求6所述的方法,其特征在于,所述步骤(5)中,对提取出的单个字符中误分割的字符进行校正的具体步骤如下:
1)针对每一个文本行,使用字宽融合方法对垂直投影法分割时的误分割结果进行处理:
通过比对前后两个字符总的宽度和平均字符的宽度Tw来判断这两个字符是不是由一个字符误分割而来:
其中,len(g)用于统计集合Ωi中各个子集的元素个数,Ωi,i=1,2,...,M是统计字符宽度w得到的集合,Ωi={w|w∈[(i-1)*10,i*10]},M是以10个像素为间隔将字符宽度区间[0,J]进行划分得到的子区间的数量,J由下面公式给出:
其中,max_w是所有字符候选者的最大宽度。
8.根据权利要求1或2或4或5或7所述的方法,其特征在于,所述步骤(6)中,采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810446940.1/1.html,转载请声明来源钻瓜专利网。