[发明专利]一种汉字自动部件层次分析方法有效
申请号: | 201110205810.7 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102346664A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 王石;曹存根;刘亮亮;郑宇飞;王为民;符建辉;曹亚男 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字 自动 部件 层次 分析 方法 | ||
技术领域
本发明涉及简体汉字的字形结构分析,特别涉及到简体汉字的自动部件层次分析方法。
背景技术
从结构上来看,汉字包括独体字和复合字两种。独体字是指不能进一步拆分的汉字,而复合字是由复合字、独体字、偏旁、部首等以某种结构组合在一起形成的汉字。在《信息交换用汉字编码字符集》(GB2312-80)所收集的6763个汉字中,独体字有336个,仅占4.96%,其余的95.04%均是复合字。由于结构复杂,复合字的学习、书写,以及计算机处理都较困难。将复合汉字逐层地分解为多个部件称为汉字的部件层次分析。通过部件层次分析,可以简化汉字结构,明晰其构造特征,有助于人和计算机系统更好地处理复合汉字。汉字部件层次分析的结果是一棵多叉树,图1给出了一个示例,以‘寞’字为例,第一层将其拆分为“宀+莫”、第二层又将‘莫’进一步拆分为“艹+旲”、第三层又将‘旲’拆分为“日+大”。
在计算机领域,汉字的部件层次分析对汉字的字形自动分析具有重要作用,是比较两个汉字的字形相似度的基础资源。在基于字形的汉字相似度计算中,通常采用分而治之的策略,首先把汉字拆分为多个部件,分别计算各个对应部件间的相似度,然后进行综合评估。汉字间的字形相似度应用广泛,是包括手写体识别、光学字符识别系统、自动文本校对等系统的基础和关键步骤。因此,对汉字进行部件层次分析具有重要的应用价值。
然而,手工进行汉字部件层次分析却面临一系列困难。除了耗时漫长这一问题外,由于汉字的复杂性及不同分析人员对汉字结构的认知不同,在拆分时很难确定和实施统一的标准部件粒度和拆分方式。以‘寞’字为例,在第一层将其拆分时,可能有“宀+莫”、“[宽上]+旲”等多种拆分方式(此处,我们用“[宽上]”来表示“宀+艹”组成的部件)。在这种歧义的情况下,人工拆分难以做到标准统一,从而在后续的工作中影响对汉字字形相似度的判断。
因此,根据汉字的笔画信息,设计一个汉字自动部件层次拆分方法,并据此实现自动拆分系统,一方面可以节省大量的人力,另一方面也有助于实现统一拆分标准,对于汉字字形结构分析和比较,具有重要价值。
发明内容
本发明所要解决的技术问题:针对目前人工进行汉字部件层次分析所遇到的拆分标准难以统一的问题本发明提供了一种自动的简体汉字部件层次分析方法。发明通过定义汉字的笔画集合,依靠汉字部件的稳定性特征和长度特征,自动计算汉字中连续笔画序列的部件特征值,层次地实现汉字的自动部件拆分,得到汉字的部件层次分析树。
本发明是通过以下技术方案而实现的:一种汉字自动部件层次分析方法,其特征在于:具体步骤包括:
步骤1. 确定汉字基本笔画集合, 并将《信息交换用汉字编码字符集》“GB2312-80”所收集的6763个汉字中按照该笔画集合写成笔画序列的形式;
步骤2. 依靠汉字部件的稳定性特征将汉字自动切分多个部件,并对这些部件重复步骤2,最终形成层次结构的汉字部件分析树。
所述步骤1中,汉字的基本笔画是指汉字书写中一次连续书写的线条,其具体集合如表1所示,共36个;
表1 汉字部件数据库中的笔画集合“示例字后数字表示其第几笔为列出笔画”
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110205810.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可快速充电锂离子电池负极材料及其制备方法
- 下一篇:电流源型逆变器设备