[发明专利]一种汉字信息处理方法及汉字拆分存储方法无效
申请号: | 201110244411.1 | 申请日: | 2011-08-18 |
公开(公告)号: | CN102262683A | 公开(公告)日: | 2011-11-30 |
发明(设计)人: | 何瑞芳 | 申请(专利权)人: | 何瑞芳 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 加拿大不列颠哥伦比*** | 国省代码: | 加拿大;CA |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字 信息处理 方法 拆分 存储 | ||
技术领域
本发明涉及汉字存储方法和多种依据该汉字存储方法相关的汉字信息处理方法,特别涉及一种汉字存储方法及使用该存储方法设置的部件查询输入法及一字文编码方法。
背景技术
以图解词意为造字方法而起源的汉字,虽然其直接的表意功能已逐渐丧失,变成了既不完全表意又不完全表音的繁难的记号文字,但又是形、音、义这三个方面的统一体,具有组词能力强、信息量大、简短、美观等优点,记载了中华文化5千年的文明。随着计算机技术的发展,汉字难学、难用、难推广的弱点,集中表现在输入法这个技术领域。
几乎所有的汉字输入法,都是从音和形这两个方面着手,形成了五花八门的音码、形码、形音码、音形码,主要是通过26个英文字母,和/或O到9这10个数字的编码,试图用最短的码长,来建立汉字和编码之间的某种关系。这里所说的英文字母,大多是基于1958年颁布的《汉语拼音方案》,共计409个拼音。
为了全面研究汉字,本项目收集了UNICODE编码完全不同的简体、繁体、日本、朝鲜汉字共76077个,其中的56900个汉字拥有拼音数据。要显示75000个汉字,可安装海峰五笔的配套超大字集支持包(http://okuc.net/Software/Unifonts.exe)。假设所有汉字都拥有拼音的数据,那么,用拼音来输入汉字的输入法,将存在严重的重码问题:76077/409=186,也就是说,每个拼音,对应着约186个汉字。假设每页(行)显示10个字,那么,平均需要翻186/10/2=9页,才能找到并输入一个汉字。这说明,拼音虽然简洁易学,是非常好的发音方案,却是一个很差的输入方案,也不是一个可行的汉字拉丁化方案。从这个角度说,《汉语拼音方案》的优点,正是它的缺点。
为了解决重码问题,需要除拼音之外的更多的信息。以图解词意造出的汉字,具有特殊的形态结构,可以拆分出一定的偏旁部首、部件、字根、笔画组合和笔画,那么,这些形态方面的信息,就构成了汉字的另一维的参数,为克服拼音重码的难题,提供了多种多样的解决方案。
许慎于汉安帝建光元年(121年)所著的《说文解字》,收9353字,又古文、籀文等异体同文1163字,共10506字,是中国第一部系统地分析汉字字形和考究字源的字书。许慎将每字均按“六书”(指事、象形、形声、会意、转注、假借)分析字形,把众多的汉字按形体构造分成了540部,创造了一套自成体系的“据形系联”和“以类相从”的“偏旁编字法”。
汉字最基本的构字要素,就是笔画,是书写汉字时,不间断地一次连续写成的一个线条段。汉字的笔划归纳为横、竖、撇、捺、折5种。传统的汉字结构学说里,根据汉字的构成单位把汉字分成独体字、合体字两类。独体字由笔画构成,合体字则由偏旁构成。偏旁指的是“六书”中会意、形声字里的组成部分,或表义或表音,是合体字的结构单位。采用传统文字学的两分法,称合体字的左方为「偏」,右方为「旁」。现今,合体字的左右上下任何一部分均为偏旁。部首则是用来作为排列和检索汉字依据的特殊的偏旁。
几乎所有的汉字是由若干组笔画结构拼合而成的,这些相对独立的笔画结构称为“部件”。部件是大于基本笔画而小于或等同于偏旁的结构单位。字根是从汉字最小的离散结构单位着眼分析汉字形体得出的结果,由若干笔划交叉连接而形成的相对不变的结构,是构成汉字的最基本的笔画组合。有许多偏旁部首本身包括2个以上的字根。
可以从大到小,将这些构字单元进行排列:
(1)偏旁部首是汉字最大的组成单元,可以是较简单的汉字,一般有一定的读音和意义;
(2)部件既可以是偏旁,又可以是字根这样的笔画结构;
(3)字根是构成汉字的最基本的笔画组合,本身没有特定的读音与意义;
(4)笔画仅为特定位置的书写线条。
不同的输入法,虽然取码方案不尽相同,但都是以下几种可能的不同组合:
(1)偏旁及其首、末笔画;
(2)部首及其首、末笔画;
(3)部件及其首、末笔画;
(4)字根及其首、末笔画;
(5)字的笔顺与笔画。
共有14种组合,按每次取其中的4个要素计算,则有14*13*12*11=24024个组合,也就是24024种编码方案,其中的部分方案,已经申请了专利。不同的输入法,所采取的不同的组合的取码方案,目的只有一个:如何用最容易记忆与学习的方法,取到最短的码长的编码,以达到最少的重码的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于何瑞芳,未经何瑞芳许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110244411.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:线性振动器
- 下一篇:多功能内镜下微创剥离刀