[发明专利]一种汉字字形认知相似度确定方法有效
申请号: | 201110205807.5 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102393850B | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 王石;王卫民;符建辉 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字 字形 认知 相似 确定 方法 | ||
技术领域
本发明涉及汉字间认知形似相似度的计算,特别是涉及一种基于汉字部件分析和笔画的汉字字形相似度计算方法和系统。本发明主要应用于形似别字自动校对系统,另外本发明的成果也可用于汉字教学、形码输入等领域。
背景技术
汉字起源于图像,是一种注重视觉信息的方块形符号。存在大量形状上彼此相似的字,如“戈/弋/戋”、“戊/戌/戍”等,对于这些形似的汉字,人们在记忆中容易混淆,书写时容易出错,从而产生错别字。
错别字是错字和别字的统称。错字是指将正确字写成一个不存在的字,如将‘琴’的‘今’写为‘令’;别字是指将正确的字写成另外一个存在的汉字,如将‘戈’写成‘弋’。因为不存在的字是无法输入到计算机中的,因此计算机领域中的自动文本校对主要是解决别字问题。按照产生的原因,别字包括音似和形似别字,形似别字又可分为由人的认知产生的别字和由计算机系统(手写体识别系统,光学字符识别系统等)产生的别字,两者均由汉字间在形状上的彼此相似导致,但两者对相似的定义有所不同。
汉字的形似是难以严格定义的。从不同的角度出发,形似具有不同的标准,同一个汉字会具有不同的形似字。例如,对于三个汉字“戈/弋/戋”,从光学字符识别(OCR)的角度出发,‘戈’更容易被误识为‘戋’;而从认知的角度,人们则更容易将‘戈’错写为‘弋’。在汉语中,目前的相关工作着重于从OCR和手写体识别角度出发研究汉字的字形相似度,并取得了很好的效果,其他类似语种的研究也趋向于此。然而,在自动文本校对应用中,形似别字不仅仅来自OCR或手写体识别的错误,还有很多源自书写者本身的认知错误。对于这部分认知形似别字,需要从认知的角度定义形似的性质,计算汉字间的认知形似度,才能达到更好的校对效果。
发明内容
本发明所要解决的技术问题:针对以上问题本发明提供了一种自动的汉字字形认知相似度的计算方法。
本发明是通过以下技术方案而实现的:一种汉字字形认知相似度计算方法,其特征在于:包括以下步骤:
步骤1. 汉字的部件拆分
汉字部件拆分数据库是用于将汉字拆分为树状的层次结构,称为汉字的部件拆分树;在本发明中,每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构;汉字基本笔画包括36种,如表1所示;
表1 汉字部件数据库中的笔画集合(示例中数字表示示例汉字的第几画是前面的笔画)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110205807.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提高海洋工程船载货量的方法
- 下一篇:一种捣固U型管导烟车及其工作方法