[发明专利]一种基于卷积神经网络的屏幕渲染文本识别方法在审
申请号: | 201810446940.1 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108710882A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 徐新;周军;穆楠 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06F17/28;G06N3/04 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 刘艳艳 |
地址: | 430081 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 屏幕 卷积神经网络 渲染图像 单个字符 文本识别 渲染 文本块 文本行 检测 二值化图像 传统文字 低分辨率 文字识别 中文字符 二值化 鲁棒性 小字体 校正 一体化 分割 引入 | ||
本发明公开了一种基于卷积神经网络的屏幕渲染文本识别方法,包括如下步骤:对屏幕渲染图像进行二值化;从二值化图像中检测出文本块;对检测得到的文本块进行组合,组成文本行;从文本行中提取出单个字符;对提取出的单个字符中误分割的字符进行校正;采用卷积神经网络对单个字符进行识别。本发明首次将卷积神经网络引入屏幕渲染识别技术领域,通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性,能够高效的获得更加准确的文字识别结果,尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题,同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案。
技术领域
本发明涉及一种基于卷积神经网络的屏幕渲染文本识别方法,属于图像处理技术领域。
背景技术
光学字符识别是将图像中的文本转换为机器编码文本,无论是从扫描文档、文档照片、场景照片或叠加在图像上的标题文本,它被广泛用作从打印纸质文档中读取信息。而屏幕渲染图像是指经由电脑或手机GPU渲染而呈现在显示屏上的一种点阵图像,使用手机拍摄这种图像时,由于拍摄角度和光照条件的不同会对图像质量产生很大的影响。
尽管在过去多年的研究中,人们对光学字符识别技术进行了广泛的研究,在扫描文档识别,手写汉字单字识别以及场景文字识别等领域取得了丰硕的成果。但是,由于屏幕渲染图像的低对比度和低信噪比,在这方面的研究进展并不明显。在过去的屏幕渲染文本识别研究中,Wachenfeld等人使用最近近邻算法对字符图像进行识别,Rashid等人使用隐马尔可夫算法对字符图像进行识别。这些方法都能够对屏幕渲染图像中的英文字符进行很好的识别,但是在中文字符的识别中,速度和效果都不是特别理想。
发明内容
本发明为了克服以上技术的不足,提供了一种基于卷积神经网络的屏幕渲染文本识别方法,可以用于屏幕渲染图像中字符分割和提取、在线词典的划词翻译以及自然场景下的文字识别等。
本发明克服其技术问题所采用的技术方案是:
一种基于卷积神经网络的屏幕渲染文本识别方法,包括如下步骤:
(1)对屏幕渲染图像进行二值化;
(2)从二值化图像中检测出文本块;
(3)对检测得到的文本块进行组合,组成文本行;
(4)从文本行中提取出单个字符;
(5)对提取出的单个字符中误分割的字符进行校正;
(6)采用卷积神经网络对单个字符进行识别。
本发明优选的,所述步骤(1)中,对屏幕渲染图像进行二值化的具体步骤如下:
(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间:
其中,R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值,Gray(x,y)表示对应点上的灰度值,N和M分别表示图像的高度和宽度;
(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像:
其中,v(x,y)是图像中每个像素点的灰度值,T(x,y)是二值化之后的值;
(1.3)采用颜色反转技术,将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字:
其中,F(x,y)是颜色反转之后的值。
本发明优选的,所述步骤(2)中,从二值化图像中检测出文本块的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810446940.1/2.html,转载请声明来源钻瓜专利网。