[发明专利]用于非规范格式手写中文地址的识别方法有效
申请号: | 201510044955.1 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104598887B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 吕岳;韦箫华;吕淑静 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/68 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙)31215 | 代理人: | 徐筱梅,张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明给出了一种用于非规范格式手写中文地址的识别方法,并建立了一个规范格式的地址表示方法。本方法提出用词级树的结构来存储中文地址库,其中每个结点存储一个地址词,从根结点到叶子结点的一条路径则存储一个规范格式书写的地址。整个地址识别包括构建词级树;构建字符索引表;图像过分割;合并分割块;字符识别;生成候选地址词;规范格式地址识别。本发明可将非规范格式书写的地址映射到规范格式的对应地址,从而实现识别。 | ||
搜索关键词: | 用于 规范 格式 手写 中文 地址 识别 方法 | ||
【主权项】:
一种用于非规范格式手写中文地址的识别方法,其特征在于该方法包括以下步骤:步骤1:构建词级树,用以表示并存储规范书写格式的地址;所述构建词级树的深度为5,第1层为根节点,从第2层至第5层分别存储表示“省”,“市”,“区”及“路”名的地址词,其中每个节点存储一个地址词;步骤2:构建字符索引表,用以表示单个字符和地址词之间的关联;所述构建字符索引表用于存储所有被包含在地址词中的字符,并且将字符与包含此字符的所有地址词进行关联;步骤3:分割‑识别处理,用于对图像进行字符的分割,合并及对分割块合并所成的候选模式块进行字符识别;具体包括:图像过分割,将图像分割成原子块,用于将手写汉字之间的重叠部分或连笔部分分割开;合并分割块,将连续的原子分割块逐一进行合并形成候选模式块,用于恢复过分割过程造成的单个字符或是左右结构的字符被分离开的情况;字符识别,用于识别候选模式块,并计算识别结果置信度;步骤4:生成候选地址词,用于得到置信度较高的候选地址词;所述生成候选地址词是通过结合候选模式识别结果,字符索引表以及词级树所存储的地址词,对词级树进行修剪而得;步骤5:规范格式地址识别,用于将待识别手写地址映射到所对应的规范格式书写的方式;所述规范格式地址识别是将候选地址词结合词级树,对词级树采用至底向上的搜索方法对候选地址词进行组合,最终生成候选地址;取置信度最高的候选地址作为最终的地址识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510044955.1/,转载请声明来源钻瓜专利网。