[发明专利]基于二分类的深度学习手写中文字符识别方法及系统有效
| 申请号: | 202010526123.4 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN111652332B | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 许信顺;张雨柔;罗昕 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/62 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250101 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 分类 深度 学习 手写 中文 字符 识别 方法 系统 | ||
本公开公开了基于二分类的深度学习手写中文字符识别方法及系统,包括:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
技术领域
本公开涉及计算机视觉领域中的字符图像识别技术领域,特别是涉及基于二分类的深度学习手写中文字符识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着计算机技术的不断发展,越来越多的工作不再依赖于大量的人工劳动力,而是特定的设备可以帮助人类自动地完成。光学字符识别技术(Optical CharacterRecognition,OCR)就是一项典型的重大技术突破,目前,基于OCR识别的各类电子产品已进入我们的生产生活中,帮助人们完成各类文字信息的获取和分析处理工作。
OCR光学字符识别借助于扫描仪将以纸质或者其他材质为载体的文字信息扫描后采用先进的字符识别技术将扫描图片中的文字识别为计算机可以理解编辑的文本文字信息进行录入。
OCR是一种将图片信息数字化的技术,主要可以分为以下几个步骤:输入原始图像、对原始图像进行预处理、字符图像分割、字符图像特征提取和字符识别。字符识别技术依据于图像中字符的完成形式可以分为打印体字符识别技术和手写体字符识别技术。
基于打印体的字符识别技术由于图像中字符字体相对规范、字体大小和分布相对规律,目前的技术方法也已比较成熟,已有相关的产品进入市场并成功应用于我们的日常工作生活中。
然而,针对于手写体的字符识别由于手写字符的不规范性、字体大小不一致以及书写者不同的书写习惯等原因使得该方向的技术不够成熟,难以实现较好的识别准确率,因此该问题的解决方案还在进一步的研究优化中。
手写中文字符识别又可以分为脱机手写中文识别和联机手写中文识别,脱机手写中文识别是指识别一张图像中呈现的书写完整的手写文字,相比于联机手写中文识别和打印体中文识别,由于书写轨迹的缺失和手写字体的不规范性,脱机手写中文识别的实现难度更高,其主要的挑战在于以下几个方面:
(1)中文字符类别规模庞大,一级汉字库中的常用汉字种类就有3755类;
(2)书写不规范,手写字体因人而异,不同的人写出来的汉字差别较大,增加了识别模型训练的难度;
(3)汉字库中存在很多相似字体,相似字体的差异甚小,难以区分,例如,“已”和“己”,很容易将两者相互识别错误;
(4)一般的书写稿中常包含中文标点符号,汉字字符和标点字符相差较大,使用同一个模型对两者识别可以提高工作效率,但可能存在将汉字识别成标点或者标点识别成汉字的可能性。
脱机手写中文识别技术主要分为以下两大类:基于传统方法的脱机手写中文识别技术和基于深度学习的脱机手写中文识别技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010526123.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定位导正式电机极靴压入装置
- 下一篇:用于酒驾查处的数据处理方法





