[发明专利]一种基于深度学习的文字识别方法在审

专利信息
申请号: 201710538785.1 申请日: 2017-07-04
公开(公告)号: CN107273897A 公开(公告)日: 2017-10-20
发明(设计)人: 凌贺飞;赵航;李平 申请(专利权)人: 华中科技大学
主分类号: G06K9/32 分类号: G06K9/32;G06K9/62;G06N3/02
代理公司: 华中科技大学专利中心42201 代理人: 廖盈春,李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 文字 识别 方法
【说明书】:

技术领域

发明属于模式识别中的文字识别领域,更具体地,涉及一种基于深度学习的文字识别方法。

背景技术

随着现代科学技术的不断发展与互联网的广泛普及,我们每天都要接触到以各类形式呈现的海量信息资源,特别是在我们平时的生活学习和工作当中,经常难以避免地需要处理大量的文字信息,并将其录入到计算机中。因此,如何能够快速准确地将这些文字信息录入到计算机等各类电子设备之中便成为了一个急需解决的问题。光学字符识别(简称OCR)是指通过借助机器设备自动提取出图片中的文字,并将其转换成机器可以编辑的文字的一种技术。

一般而言,传统的汉字识别方法主要包括数据预处理、特征提取和分类识别三部分。

(1)预处理。预处理的作用在于加强有用图像信息、去除噪声、从而有利于特征提取。该过程通过二值化、平滑去噪和归一化等手段来执行。其中,二值化是实现灰度文本图像到二值化文本图像的转化;去噪是将二值化后,图像中的孤立点(污点)去除;归一化是规范文字的大小、位置形状以减少相同字符之间的形变。

(2)特征提取。特征提取分为2大类:结构特征提取与统计特征提取。基于结构的特征提取是指,提取字符轮廓或骨架上的字符像素信息,如笔划特征、轮廓、周边特征、部件等,该方法能有效适应字体变化,区分相似字能力强,但是在图像文本中存在各种干扰,如倾斜、扭曲、断裂、粘连、五点等,该类方法抗干扰能力较弱。对样本进行数学变换后提取的特征,被称为统计特征。主要采用的方法有小波变换、傅里叶变换、频域变换、矩、,离散余弦变换等。提取出的特征通常供给统计分类器使用。总体而言,统计特征的识别相对结构特征细分能力较弱,区分相似字的能力不强。

(3)分类识别。分类识别时对特征提取所获得样本,按建立的分类规则进行识别。分类器是分类识别的核心问题,分类器的作用是加快匹配速度,提高识别效率,达到识别效果。

但传统汉字字体的识别方法存在着不足,因为汉字字符的复杂性,特征提取方法不能处理多变的汉字外形,特征点提取方法需要人工专家定义重要的特征点位置,而且,对于那些特征点的重要性也不能给出统一的标准,从而导致文字识别准确率较低。

发明内容

针对现有技术的以上缺陷或改进需求,本发明的目的在于提供了一种基于深度学习的文字识别方法,由此解决目前的文字识别方法对文字的识别准确率较低的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的文字识别方法,包括:空间变换层构建阶段以及深层卷积神经网络构建与训练阶段;

所述空间变换层构建阶段包括:

定位网络接收输入的特征图,经过系列隐层,输出空间变换参数,其中,该参数是变换函数作用在特征图上的参数;

网格生成器使用定位网络输出的空间变换参数产生出采样网格;

采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果;

所述深层卷积神经网络构建与训练阶段包括:

构建深层卷积神经网络的结构,将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络;

采用随机梯度下降法对目标深层卷积神经网络进行训练,进而得到字符识别模型,所述字符识别模型用于对输入的待识别文字图像进行文字识别。

优选地,所述定位网络包括两个卷积层,各卷积层的卷积核数量为M,大小为N,步长为s,在每个卷积层后均设置一个最大值池化层,该池化层大小为L,步长为t,在每个池化层后均设置一个ReLU层,在第二个ReLU层后设置一个全连接层,在全连接层后设置一个ReLU层,接着最后一层也是全连接层,用于输出空间变换参数,维度是d。

优选地,所述网格生成器使用定位网络输出的空间变换参数产生出采样网格,包括:

由得到输入特征图中的各像素变换后的输出像素,由所有输出像素组成输出特征图中的采样网格,其中,表示输入特征图中在第i个像素的源坐标,表示输出特征图中的采样网格在第i个像素的目标坐标,Aθ表示仿射变换矩阵,为定位网络输出的空间变换参数,Gi表示采样网格中的像素集。

优选地,所述采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710538785.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top