[发明专利]基于海量自然文本的自动词组提取技术无效
申请号: | 200810132524.0 | 申请日: | 2008-07-16 |
公开(公告)号: | CN101630198A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 侯伟华 | 申请(专利权)人: | 侯伟华 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 10083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 自然 文本 自动 词组 提取 技术 | ||
技术领域
本发明涉及汉字输入法技术
背景技术
词组输入是各种汉字输入法的基本功能,但现有方案中都是采用软件厂商或用户预先定义的方式来确定词组。显然,对于近乎无限的汉语词汇而言,任何一个输入法系统的词组数量都是“有限”的,用户在实际使用过程中经常遇到无法立即打出所期望词组的情况,影响汉字输入的速度和用户的操作体验。
发明内容
本发明的目的是提供一种克服现有输入法中词组数量受限的解决方案。在自然的汉字文本中,已经包含了几乎所有可能的字与字、字与词、词与词的组合,这其中的某些组合已经被各种输入法软件收集为“词组”,但对于自然语言而言,所有汉字的字、词之间组合的数量几乎是无限的,因此,以预先定义方式形成的词组必然不可能全部收集。有的输入法通过增加词组数量的办法试图提高命中率,带来的结果是大量垃圾词汇的增加和系统负担的加剧,却还是不能覆盖到特定用户的需求。而如果能从用户预先提供的自然文本中提取出期望的词组,则将满足几乎所有的需求。这正是本发明的目的所在。
预先准备“一本”文字数量足够、可涵盖所有可能涉及领域的自然文本“参考书”(电子文本文件),并建立一个单个汉字与其对应的输入码之间关系的“码表”。当用户输入一组输入码ABCDEF之后,本技术将进行以下过程:
1.系统从“参考书”中检索到符合输入码A的汉字,称之为“首字”;
2.检索出其相邻的下一汉字;
3.从“码表”中查到该字对应的输入码X;
4.将X与输入码ABCDEF中的B进行比较。
5.如果X=B,则重复过程2、3、4,将后续汉字的输入码X与CDEF分别比较,直至完成。
6.如果X≠B,则重新开始过程1进行“首字”检索;
如果最终某一串汉字序列所对应的输入码全部符合ABCDEF,则该串汉字序列即为自动提取出的词组。
某些汉字在特定输入法方案中会存在一个汉字对应多个输入码的情况,例如拼音方案中的多音字,对此,将对同一汉字重复进行上述3、4、5过程,如果全部输入码均为X≠B,则转入上述过程6处理。
可通过引入其他配合技术,自动排除一些无效的组合,从而提高候选词组的有效性。
本发明已用于实际的软件产品。在使用约1000万字的参考文本时,系统在普通家用商用电脑上达到了实时录入的速度,没有明显的延迟,所提取的词组也正是期望的结果。应用效果令人满意。
词组输入是各种汉字输入法的必备功能,但现有方案中的词组均需要预先定义,不可能涵盖所有的词组。本发明的意义在于,只要预先收集具有足够代表性的海量自然文本,其中任意长度的连续汉字序列均可以提取成为有效的词组,词组的数量不再受到任何限制。
本发明基于实际的海量自然文本,只要预先收集到足够数量、涵盖录入内容所有领域的既有自然文本,凡是其中存在的连续汉字序列,都可以被成功地提取成为“词组”。因为是源于自然存在的文本,其中字与字、字与词、词与词的组合几乎涵盖了用户在特定录入环境下所有可能的组合,对于用户而言,可以打出任何所期望的词组,词组的数量也将成为“无限”。
具体实施方式
以某种拼音类输入法为例,如果预先收集的“参考书”中包含了本说明书的内容,那么,依据本发明所描述的技术,其中的全部文字序列均可被作为词组提取出来。
例如,当输入“xysrf”几个拼音字头时,即可得到自动提取出的“现有输入法”词组。同样地,其中的任意连续文本均可作为词组提取出来,比如:1jch=垃圾词汇;tdyh=特定用户;mdsz=目的所在……
只要简单地修改码表和判定规则,本发明可以适用于任何现有的汉字输入法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于侯伟华,未经侯伟华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810132524.0/2.html,转载请声明来源钻瓜专利网。