[发明专利]一种基于字符轮廓的字符识别方法在审
申请号: | 202211103708.0 | 申请日: | 2022-09-09 |
公开(公告)号: | CN116311264A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 陈立森;许芳勤 | 申请(专利权)人: | 点就行(上海)科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/19;G06V30/24 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 吴轶淳 |
地址: | 201111 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 字符 轮廓 识别 方法 | ||
本发明涉及文本识别技术领域,具体涉及一种基于字符轮廓的字符识别方法,包括:S1:对待识别字符提取多个轮廓组成部分,生成整体标识码;S2:采用字符识别库和整体标识码对待识别字符进行识别,并判断是否能够识别待识别字符;若否,转向S3;S3:对待识别字符进行分割,并分别提取分割后各轮廓区段的轮廓组成部分,以生成局部识别码;S4:采用字符识别库和局部识别码对待识别字符进行识别。本发明的有益效果在于:通过获取字符的轮廓组成部分,根据字符的轮廓的形状变化生成标识码,实现了对字符轮廓形状的有效表述,从而可以根据字符识别库进行较为准确的匹配,对倾斜、旋转、拉伸后的字体可取得同样的识别效果,便于对各类纸质文件进行识别。
技术领域
本发明涉及文本识别技术领域,具体涉及一种基于字符轮廓的字符识别方法。
背景技术
文字识别,是一种利用计算机技术自动识别字符的技术。通常情况下,文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
现有技术中,已存在有基于图像识别方法对图像中的文字进行识别的技术,比如光学字符识别(Optical Character Recognition,OCR)。该类技术通常是通过对印刷字符进行一系列图像处理,随后通过相应的识别算法对每个字符进行识别,从而提取到具体的文字。但是,在实际实施过程中,发明人发现,该类技术方案往往仅能够对印刷字符取得较好的识别效果。对于特定类型的文件,比如手写文件、古籍、书信等,由于该类文件存在字体不固定、与印刷字体偏差较大,扫描照相导致每个字符的不同程度倾斜和变形,年代久远带来的字迹不清楚和缺失,手写体的笔墨不同带来的字符差异等问题,不能很好地进行识别。
发明内容
针对现有技术中存在的上述问题,现提供一种基于字符轮廓的字符识别方法。
具体技术方案如下:
一种基于字符轮廓的字符识别方法,包括:
步骤S1:对待识别字符沿一特定方向提取所述待识别字符的多个轮廓组成部分,根据所有的所述轮廓组成部分生成一整体标识码;
步骤S2:采用一预先生成的字符识别库和所述整体标识码对所述待识别字符进行识别,并判断是否能够识别所述待识别字符;
若是,输出识别结果,随后结束识别过程;
若否,转向步骤S3;
步骤S3:对所述待识别字符进行分割,并分别提取分割后的所述待识别字符各轮廓区段的所述轮廓组成部分,以生成对应于所述轮廓区段的局部识别码;
步骤S4:采用所述字符识别库和所述局部识别码对所述待识别字符进行识别,随后输出所述识别结果。
优选地,所述步骤S1包括:
步骤S11:于所述待识别字符的轮廓中选取一原点,自所述原点沿所述特定方向获取所述轮廓上的每一个点;
步骤S12:对所述轮廓进行分组,沿所述特定方向分别获取每一组的点组成的图案形状,以作为所述轮廓组成部分;
步骤S13:根据所述轮廓组成部分的种类分别生成对应于每个所述轮廓组成部分的标识位,根据所述标识位和所述轮廓组成部分的顺序生成所述整体标识码。
优选地,于所述步骤S1之前,构建所述字符识别库的方法包括:
步骤S01:获取一样本字符,沿所述特定方向提取所述样本字符的多个所述轮廓组成部分,根据所述轮廓组成部分生成所述整体标识码;
步骤S02:对所述样本字符进行分割,并获取分割后的所述样本字符各所述轮廓区段的所述轮廓组成部分,根据所述轮廓组成部分生成所述局部识别码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于点就行(上海)科技有限公司,未经点就行(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211103708.0/2.html,转载请声明来源钻瓜专利网。