[发明专利]补字的排序存储方法及装置、创建补充字库的方法及装置有效
申请号: | 201310364886.3 | 申请日: | 2013-08-20 |
公开(公告)号: | CN104424196B | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 高玉军 | 申请(专利权)人: | 北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天昊联合知识产权代理有限公司11112 | 代理人: | 罗建民,邓伯英 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 排序 存储 方法 装置 创建 补充 字库 | ||
技术领域
本发明涉及计算机字符信息处理领域,具体涉及补字的排序存储方法及装置、创建补充字库的方法及装置。
背景技术
截至目前,已经颁布的国际编码标准ISO/IEC10646:2003,和国家编码标准GB13000-2010、GB18030-2005中,已收录CJK统一汉字、CJK统一汉字扩充集A和CJK统一汉字扩充集B,共计70195字,而CJK统一汉字扩充集C1正在制定过程中。然而,如此庞大的字符集仍无法满足现有的使用需求。例如,无法满足公民个人信息中姓名、住址用字的需求。也就是说,公民个人信息的姓名、住址中的冷僻字,目前仍然没有被国际或国家编码标准所收录,因而现有的符合国际或国家编码标准的字库,都不支持公民个人信息中大量冷僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而导致在涉及到公民个人信息处理的领域,例如公安人口信息管理系统、第二代居民身份证制证系统、银行、保险、海关等,经常会遇到居民姓名、住址中冷僻字的处理问题。
目前的现状是:用户发现自己使用的输入法无法录入某些汉字时,并不清楚是国际或国家编码标准中尚未收录该汉字,还是输入法未能覆盖现有的国际或国家编码标准,且不经编码查重,就按照自己的需求随便地补入一个字形,也未经数据整理和字形规范,就随便地将该字形放入用户自定义区的某个位置。如此一来,用户自定义区内的补字没有进行分级和排序存放,不仅存储无序、杂乱无章,造成用户自定义区内存储空间的浪费及检索效率的低下。而且,由于未经查重、整理,还可能存在字形重复。更为严重的是,这样产生的补字存储序列和补字字库,很难与其它系统进行传输、交换。
发明内容
本发明所要解决的技术问题是针对现有技术中所存在的上述缺陷,提供一种能够避免字形重复,提高存储及检索效率,且能够与其他系统进行传输、交换的补字的排序存储方法及装置、创建补充字库的方法及装置。
解决本发明技术问题所采用的技术方案:
所述补字的排序存储方法包括如下步骤:
1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤2);
2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息;
3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
优选地,所述步骤1)中,判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录具体为:
11)逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;
12)逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤2)。
优选地,所述对比的方法采用图片对比或字形数据对比。
优选地,所述现有国际编码标准包括ISO/IEC10646:2003,所述现有国家编码标准包括GB18030-2000和GB13000.1-1993。
优选地,所述步骤2)中,待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
优选地,所述步骤3)中,根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,具体为:
311)根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;
312)按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。
优选地,所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;所述使用频率排序因子具有最高优先级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310364886.3/2.html,转载请声明来源钻瓜专利网。