[发明专利]基于子结构学习的手写中文识别方法有效
申请号: | 201310255159.3 | 申请日: | 2013-06-25 |
公开(公告)号: | CN103324929A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 朱远平;何源;孙俊 | 申请(专利权)人: | 天津师范大学;富士通株式会社 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/68 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于子结构学习的手写中文识别方法,将字符分割片段视为汉字的子结构,从汉字分割片段样本中提取汉字子结构模式,并将汉字子结构模式纳入汉字分类器训练中,最后结合子结构识别信息和汉字子结构组成信息实现手写中文字符串的识别。本发明基于汉字是由一个或多个子结构组成的这一特点,通过提取汉字子结构,并在汉字分类器中将汉字子结构和汉字单字同时进行训练,能有效提高手写中文字符串识别过程中字符分割片段的识别可靠性,减少由于不可靠的字符分割片段识别导致手写中文字符串的识别错误,提高手写汉字识别精度。 | ||
搜索关键词: | 基于 结构 学习 手写 中文 识别 方法 | ||
【主权项】:
一种基于子结构学习的手写中文识别方法,其特征在于,该方法包括子结构学习和基于子结构识别的手写文本识别两大部分;其中,子结构学习包括如下步骤:步骤1.1 局部子结构学习, 从某一个汉字对应的分割样本中通过聚类分析去发现和提取局部子结构模式;步骤1.2 全局子结构学习, 合并前各局部子结构对应的字符分割片段样本,作为对应全局子结构的训练样本;步骤1.3 创建子结构字典,存储子结构列表和字符分割模式列表;子结构列表中存储步骤1.2中获得的全局子结构;字符分割模式列表记录所有汉字的字符分割模式;步骤1.4 子结构识别器训练;基于子结构识别的手写文本识别部分包括如下步骤:步骤2.1 字符分割, 采用过分割的方法,使一个字符由一个或多个分割片段组成;步骤2.2 分割片段组合生成, 相邻的一个或几个分割片段组成一个分割片段子序列,按不同组合方式,对分割片段序列进行划分,再按顺序连接成一个分割片段序列组合;步骤2.3 基于字符识别器的汉字识别, 以分割片段子序列为单位,使用字符识别器逐个进行识别,并获得字符分割片段子序列的字符识别置信度;步骤2.4 基于子结构识别器的汉字识别, 先在分割片段上使用子结构识别器进行子结构识别,然后通过子结构序列寻找匹配的汉字分割模式,实现汉字识别;步骤2.5 分割路径搜索,一个分割片段序列组合将对应一条分割路径,分割路径搜索为在所有的分割路径中寻找字符串识别置信度最高的一条分割路径,并将该分割路径对应的识别结果作为最终识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学;富士通株式会社,未经天津师范大学;富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310255159.3/,转载请声明来源钻瓜专利网。