[发明专利]一种基于深度学习的文字识别方法在审

申请号：	201710538785.1	申请日：	2017-07-04
公开（公告）号：	CN107273897A	公开（公告）日：	2017-10-20
发明（设计）人：	凌贺飞;赵航;李平	申请（专利权）人：	华中科技大学
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/62;G06N3/02
代理公司：	华中科技大学专利中心42201	代理人：	廖盈春,李智
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习文字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于模式识别中的文字识别领域，更具体地，涉及一种基于深度学习的文字识别方法。

背景技术

随着现代科学技术的不断发展与互联网的广泛普及，我们每天都要接触到以各类形式呈现的海量信息资源，特别是在我们平时的生活学习和工作当中，经常难以避免地需要处理大量的文字信息，并将其录入到计算机中。因此，如何能够快速准确地将这些文字信息录入到计算机等各类电子设备之中便成为了一个急需解决的问题。光学字符识别(简称OCR)是指通过借助机器设备自动提取出图片中的文字，并将其转换成机器可以编辑的文字的一种技术。

一般而言，传统的汉字识别方法主要包括数据预处理、特征提取和分类识别三部分。

(1)预处理。预处理的作用在于加强有用图像信息、去除噪声、从而有利于特征提取。该过程通过二值化、平滑去噪和归一化等手段来执行。其中，二值化是实现灰度文本图像到二值化文本图像的转化；去噪是将二值化后，图像中的孤立点(污点)去除；归一化是规范文字的大小、位置形状以减少相同字符之间的形变。

(2)特征提取。特征提取分为2大类：结构特征提取与统计特征提取。基于结构的特征提取是指，提取字符轮廓或骨架上的字符像素信息，如笔划特征、轮廓、周边特征、部件等，该方法能有效适应字体变化，区分相似字能力强，但是在图像文本中存在各种干扰，如倾斜、扭曲、断裂、粘连、五点等，该类方法抗干扰能力较弱。对样本进行数学变换后提取的特征，被称为统计特征。主要采用的方法有小波变换、傅里叶变换、频域变换、矩、，离散余弦变换等。提取出的特征通常供给统计分类器使用。总体而言，统计特征的识别相对结构特征细分能力较弱，区分相似字的能力不强。

(3)分类识别。分类识别时对特征提取所获得样本，按建立的分类规则进行识别。分类器是分类识别的核心问题，分类器的作用是加快匹配速度，提高识别效率，达到识别效果。

但传统汉字字体的识别方法存在着不足，因为汉字字符的复杂性，特征提取方法不能处理多变的汉字外形，特征点提取方法需要人工专家定义重要的特征点位置，而且，对于那些特征点的重要性也不能给出统一的标准，从而导致文字识别准确率较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供了一种基于深度学习的文字识别方法，由此解决目前的文字识别方法对文字的识别准确率较低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的文字识别方法，包括：空间变换层构建阶段以及深层卷积神经网络构建与训练阶段；

所述空间变换层构建阶段包括：

定位网络接收输入的特征图，经过系列隐层，输出空间变换参数，其中，该参数是变换函数作用在特征图上的参数；

网格生成器使用定位网络输出的空间变换参数产生出采样网格；

采样器将输入的特征图以及采样网格作为输入，在采样网格点上对输入的特征图进行采样，最后得到输出特征图结果；

所述深层卷积神经网络构建与训练阶段包括：

构建深层卷积神经网络的结构，将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络；

采用随机梯度下降法对目标深层卷积神经网络进行训练，进而得到字符识别模型，所述字符识别模型用于对输入的待识别文字图像进行文字识别。

优选地，所述定位网络包括两个卷积层，各卷积层的卷积核数量为M，大小为N，步长为s，在每个卷积层后均设置一个最大值池化层，该池化层大小为L，步长为t，在每个池化层后均设置一个ReLU层，在第二个ReLU层后设置一个全连接层，在全连接层后设置一个ReLU层，接着最后一层也是全连接层，用于输出空间变换参数，维度是d。

优选地，所述网格生成器使用定位网络输出的空间变换参数产生出采样网格，包括：

由得到输入特征图中的各像素变换后的输出像素，由所有输出像素组成输出特征图中的采样网格，其中，表示输入特征图中在第i个像素的源坐标，表示输出特征图中的采样网格在第i个像素的目标坐标，A_θ表示仿射变换矩阵，为定位网络输出的空间变换参数，G_i表示采样网格中的像素集。

优选地，所述采样器将输入的特征图以及采样网格作为输入，在采样网格点上对输入的特征图进行采样，最后得到输出特征图结果，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710538785.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的文字识别方法在审

专利文献下载