[发明专利]无上下文的手写形似汉字极速准确识别方法在审
申请号: | 202210565115.X | 申请日: | 2022-05-23 |
公开(公告)号: | CN114863445A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 郭江华 | 申请(专利权)人: | 郭江华 |
主分类号: | G06V30/226 | 分类号: | G06V30/226;G06V10/74;G06V10/774;G06V10/764;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518100 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无上 下文 手写 形似 汉字 准确 识别 方法 | ||
1.无上下文的手写形似汉字极速准确识别方法,其特征在于,采用特征笔画空间距离构建一个初阶的静态形似汉字集,减少备选字的数量,以特征笔画空间的距离远近作为汉字之间的形似程度;将初阶形似汉字集精简化,构建二级分类器得到形似程度有一定标准的形似汉字组;利用平移不变聚束学习的输出置信因子对备选字排序,计算首选字与备选字之间的置信因子熵作为近似度的度量,选择近似度高的作为形似汉字组,平移不变聚束学习的输出置信因子的计算兼顾频度计算,考虑偏离样本中心的特殊样本,并且置信因子熵作为近似度的度量考虑的是样本的各类特性的综合;将汉字识别目标层级特征与平移不变聚束学习相结合,目标层级特征作为一个先验知识,混合梯级特征作为输入提升聚束学习识别率;
本申请首先用粗分类实现形似汉字的判定,获取近似度足够高的形似汉字组,然后用细分类实现对形似汉字的识别:
针对形似汉字判定问题,首先通过基于特征笔画空间距离近似度的方法进行形似汉字的初阶判定,选择距离近似度排名前十的作为形似汉字备选集;然后利用平移不变聚束学习输出置信因子,将频度计算与特征信息综合考虑,利用置信因子熵作为近似度的度量,选择近似度高的作为形似汉字,近似度低的则剔除,进一步精简形似汉字集;
针对形似汉字识别问题,首先用伸缩形变法扩充样本数量,提升模型泛化力,然后采用平移不变聚束学习方法实现对形似汉字的识别,最后将人工提取的特征与平移不变聚束学习相结合,先验知识有助于平移不变聚束学习的性能提升。
2.根据权利要求1所述无上下文的手写形似汉字极速准确识别方法,其特征在于,手写形似汉字集的生成方法:基于特征笔画空间距离近似度、平移不变聚束学习输出置信因子、置信因子熵逐步缩小形似汉字的范围,最终生成形似程度足够高的汉字集,以便于形似汉字的识别;
基于近似度生成形似汉字集:采用粗分类的方法减少备选类别数量,然后再用细分类实现对形似汉字的准确分类;对于粗分类,首先生成待识别汉字的若干形似汉字集,然后将这个汉字集作为细分类的备选类,减少备选字的数量,提取能够区分微小差异的特征,提升对于形似汉字的识别率,包括:基于笔画目标向量描述符的近似度计算、基于近似度生成形似汉字集。
3.根据权利要求1所述无上下文的手写形似汉字极速准确识别方法,其特征在于,基于笔画目标向量描述符的近似度计算:首先采用距离近似度来获取一个初阶形似汉字集,对于距离形似汉字的计算,采用特征笔画空间中距离近的若干个汉字作为备选字的形似汉字,采用笔画目标向量描述符作为汉字的特征表达;
笔画目标向量描述符利用图像的局部目标中的表象信息和形态信息通过梯级目标或边缘目标描述特征,首先将图像分为一个个小的相连区域,然后提取每个相连区域里面的各个像素点的梯级目标或边缘目标分布图,这些分布图的聚合就是笔画目标向量描述符,笔画目标向量描述符能保持一个图像的几何和光学形变不变性;
笔画目标向量描述符的提取步骤,分为:
步骤一:灰度化手写汉字图像;
步骤二:采用Gamma校正法对图像颜色空间归一化,以调节图像的对比度,降低阴影及光照造成的影响,抑制噪声干扰;
步骤三:计算每个像素的梯级大小和目标,获取手写汉字图像轮廓信息;
步骤四:将图像分为若干个小的单元格,计算每个单元格的梯级分布图,得到每个单元格的特征描述;
步骤五:将若干个单元格组成一个聚类块,每个聚类块里面的所有单元格的特征描述组成一个聚类块的特征描述;
步骤六:将所有聚类块的特征描述聚合,便组成该图像的笔画目标向量描述符描述,即最终的笔画目标向量描述符向量;
本申请采用32*32图像,采用每8*8个像素组成一个单元格,每2*2个单元格组成一个聚类块,每个单元格有9个梯级特征,每个单元格在梯级目标上的360度分为9块,每个聚类块就总共包含9*2*2=36个特征,在图像的水平目标和竖直目标上,以每8个像素为补偿,则对应的目标上有3个扫描窗口,每个图像总共就会有36*3*3=324个特征,即每个笔画目标向量描述符维度为324,利用得到的笔画目标向量描述符,计算不同汉字之间的特征笔画空间距离,以特征笔画空间的距离作为不同汉字之间的近似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭江华,未经郭江华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210565115.X/1.html,转载请声明来源钻瓜专利网。