[发明专利]字符切分识别方法、装置、电子设备、存储介质在审
申请号: | 201811121021.3 | 申请日: | 2018-09-25 |
公开(公告)号: | CN110942074A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 蔡小龙;刘永强;桂晨光;邓超;王超 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06K9/62 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 切分 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种字符切分识别方法、装置、电子设备、存储介质,字符切分识别方法包括:依据待识别图像的像素阵列的各像素行和各像素列上的,像素值为预设像素值的像素点数量,对包含至少一行字符的待识别图像进行字符切分;依据不同类型字符的宽度对待识别图像的字符切分的修正;将经切分的待识别图像输入一经字符样本集训练的分类器中,所述字符样本集包括经数据增广的样本图像;以及根据所述分类器的输出,识别所述待识别图像中的字符。本发明实现不同字符类型的准确字符切分,并基于字符样本集和分类器提高字符识别准确率。本发明尤其适用于印刷体字符的识别,对印刷体字符的识别准确率提高尤为显著。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种字符切分识别方法、装置、电子设备、存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。为了实现这个目的,一般分为字符切分和字符识别两个过程。目前常用的字符切分算法包括基于连通域的字符切分法及基于固定字符宽度的字符切分法。目前常用的字符识别算法包括基于统计机器学习的字符识别算法。
然而,现有的字符切分和识别算法具有如下缺陷:
1)支持字符集较小。由于分类器的选择和具体设计问题,往往只能识别数十或数百个字符。
2)不支持中英文结合。由于中文和英文字符的宽度不同,在切分和中英文结合的文字时往往会出现错切和漏切的现象。
3)不能识别复杂汉字。由于复杂汉字与简单汉字的特征差异较大,导致分类器往往只能支持简单汉字的识别。
4)总体识别率低。切分和识别两个环节都扮演了重要的角色,任何一项出了问题都会极大的影响识别率。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种字符切分识别方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种字符切分识别方法,包括:
依据待识别图像的像素阵列的各像素行和各像素列上的,像素值为预设像素值的像素点数量,对包含至少一行字符的待识别图像进行字符切分;
依据不同类型字符的宽度对待识别图像的字符切分的修正;
将经切分的待识别图像输入一经字符样本集训练的分类器中,所述字符样本集包括经数据增广的样本图像;以及
根据所述分类器的输出,识别所述待识别图像中的字符。
可选地,所述依据待识别图像的像素阵列的各像素行和各像素列上的,像素值为预设像素值的像素点数量,对包含至少一行字符的待识别图像进行字符切分包括:
依据所述待识别图像的像素阵列的各像素行上的,像素值为预设像素值的像素点数量,与一第一预设阈值之间的比较,对所述待识别图像进行行切分,以获得至少一字符行;
依据所切分的每一字符行,依据该字符行的像素阵列的各像素列上的,像素值为预设像素值的像素点数量,与一第二预设阈值之间的比较,对每一字符行进行字符切分。
可选地,所述依据所述待识别图像的像素阵列的各像素行上的,像素值为预设像素值的像素点数量,与一第一预设阈值之间的比较,对所述待识别图像进行行切分,以获得至少一字符行包括:
当所述待识别图像的像素阵列的像素行上的,像素值为预设像素值的像素点数量,小于等于第一预设阈值,则将该像素行标记为准可切分行;
对各准可切分行,与该准可切分行相邻的两像素行中至多一像素行为准可切分行的准可切分行标记为可切分行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811121021.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:点云编码方法和编码器
- 下一篇:定位初始化方法及其系统