[发明专利]一种基于卷积神经网络的屏幕渲染文本识别方法在审

申请号：	201810446940.1	申请日：	2018-05-11
公开（公告）号：	CN108710882A	公开（公告）日：	2018-10-26
发明（设计）人：	徐新;周军;穆楠	申请（专利权）人：	武汉科技大学
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/38;G06F17/28;G06N3/04
代理公司：	杭州宇信知识产权代理事务所(普通合伙) 33231	代理人：	刘艳艳
地址：	430081 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	屏幕卷积神经网络渲染图像单个字符文本识别渲染文本块文本行检测二值化图像传统文字低分辨率文字识别中文字符二值化鲁棒性小字体校正一体化分割引入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积神经网络的屏幕渲染文本识别方法，包括如下步骤：对屏幕渲染图像进行二值化；从二值化图像中检测出文本块；对检测得到的文本块进行组合，组成文本行；从文本行中提取出单个字符；对提取出的单个字符中误分割的字符进行校正；采用卷积神经网络对单个字符进行识别。本发明首次将卷积神经网络引入屏幕渲染识别技术领域，通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性，能够高效的获得更加准确的文字识别结果，尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题，同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案。

技术领域

本发明涉及一种基于卷积神经网络的屏幕渲染文本识别方法，属于图像处理技术领域。

背景技术

光学字符识别是将图像中的文本转换为机器编码文本，无论是从扫描文档、文档照片、场景照片或叠加在图像上的标题文本，它被广泛用作从打印纸质文档中读取信息。而屏幕渲染图像是指经由电脑或手机GPU渲染而呈现在显示屏上的一种点阵图像，使用手机拍摄这种图像时，由于拍摄角度和光照条件的不同会对图像质量产生很大的影响。

尽管在过去多年的研究中，人们对光学字符识别技术进行了广泛的研究，在扫描文档识别，手写汉字单字识别以及场景文字识别等领域取得了丰硕的成果。但是，由于屏幕渲染图像的低对比度和低信噪比，在这方面的研究进展并不明显。在过去的屏幕渲染文本识别研究中，Wachenfeld等人使用最近近邻算法对字符图像进行识别，Rashid等人使用隐马尔可夫算法对字符图像进行识别。这些方法都能够对屏幕渲染图像中的英文字符进行很好的识别，但是在中文字符的识别中，速度和效果都不是特别理想。

发明内容

本发明为了克服以上技术的不足，提供了一种基于卷积神经网络的屏幕渲染文本识别方法，可以用于屏幕渲染图像中字符分割和提取、在线词典的划词翻译以及自然场景下的文字识别等。

本发明克服其技术问题所采用的技术方案是：

一种基于卷积神经网络的屏幕渲染文本识别方法，包括如下步骤：

(1)对屏幕渲染图像进行二值化；

(2)从二值化图像中检测出文本块；

(3)对检测得到的文本块进行组合，组成文本行；

(4)从文本行中提取出单个字符；

(5)对提取出的单个字符中误分割的字符进行校正；

(6)采用卷积神经网络对单个字符进行识别。

本发明优选的，所述步骤(1)中，对屏幕渲染图像进行二值化的具体步骤如下：

(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间：