[发明专利]一种基于分类模糊及图像分割的英文字符识别方法有效
申请号: | 201310376411.6 | 申请日: | 2013-08-27 |
公开(公告)号: | CN103455823B | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 李宏亮;黄敏;姚卫;黄自力;孟凡满;黄超;吴庆波 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 模糊 图像 分割 英文 字符 识别 方法 | ||
技术领域
本发明属于图像处理以及计算机视觉技术。
背景技术
随着计算机信息技术的飞速发展,信息交流的途径与内容越来越丰富和多样化。自然场景中包含的文字信息越来越丰富,研究如何对自然场景图像中的字符进行识别提取出有用信息,在获取图片文本信息的各个领域都有极大的商业价值,例如邮件的自动处理,办公的自动化文本输入,以及车牌识别的相关领域。自然场景中的文字识别也是近年来国际图像处理中的热门课题。
针对场景文字识别问题,现有的方法往往都集中于提出特征提取方法,选择不同分类器,以及根据上下文检测基础建立字符间联系。
目前用于文字识别的特征提取方法使用最为广泛的是梯度直方图特征提取方法(HOG)。该方法对图像边缘信息有较好的描述。该特征提取方法最初被用于行人检测中,并且取得很好的识别效果。学者们通过对字符特征的观察,发现字符与字符的区别很大程度上也是边缘的区别,故在很大一部分的字符识别中梯度直方图特征也被用于提取字符的特征。
用于字符识别的分类器主要有支持向量机,随机森林和Adaboost。
支持向量机作为一种可训练的机器学习方法,是目前使用最多的一种分类方法,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
基于上下文的文字检测的基础是建立字典,根据在已经测的字符基础预测和修正下一个字符的识别结果。
现有英文文字识别分类为62类,其中10类阿拉伯数字,26类大写字母和26类小写字母,根据现在描述符大多不能很好描述字符间的细微特征,比如一些形状相似的大写字母、小写字母以及数字。
发明内容
本发明所要解决的技术问题是,提供能够在一种自然场景背景下的,正确率高的英文文字识别的方法。
本发明为解决上述问题所采用的技术方案是,一种基于分类模糊及图像分割的英文字符识别方法,包括以下步骤:
第1步:利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模,属于字母的像素点的掩模值为1,属于背景的像素点的掩模值为0;
第2步:使用滑动窗对图像取大小不同的子窗口;对于英文字母水平排列的英文字符串,子窗口的行数为输入待识别字符串总行数,子窗口的行数逐渐增长,子窗口的列的起点位置逐渐向右移动;对于英文字母垂直排列的英文字符串,子窗口的列数为输入待识别字符串总列数,子窗口的行数逐渐增长,子窗口的行的起点位置逐渐向下移动;
第3步:根据子窗口二值掩模计算子窗口的分离置信度SC:其中,ω为权值,对于的英文字母水平排列的英文字符串,n0为子窗口最后一列对应的掩模值为1的像素总数,n为子窗口最后一列上像素总数量;对于英文字母垂直排列的英文字符串,n0为子窗口最后一行对应的掩模值为1的像素总数,n为子窗口最后一行上像素总数量;
第4步:对子窗口提取特征并使用字母分类器分类,字母分类器输出子窗口对应的分类结果和分类分数;所述字母分类器类别包括普通字母类别与模糊字母类别,所述普通字母类别仅包括一个大写字母类别、小写字母类别或者一个数字类别;所述每一个模糊字母类别包括1类的形状相似的大写字母类别以及小写字母类别,或者,1类形状相似的大写字母类别、小写字母类别以及数字类别;
第5步:计算每个子窗口得分,子窗口得分为子窗口对应的分离置信度与分类分数之积;
第6步:将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径,两个子窗口链接条件为:一个窗口在字母排列方向上的起点与另一个子窗口在字母排列方向上的结束点位置偏移在预设最小范围内。
第7步:计算各单向路径的路径分数,通过对该单向路径对应的所有链接子窗口的子窗口得分进行乘积,再对乘积结果开n次方,n为该单向路径对应的所有链接子窗口总数,开方结果为该单向路径的路径分数;
第8步:将路径分数最高的单向路径作为结果路径输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310376411.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序