[发明专利]基于海量自然文本的自动词组提取技术无效
申请号: | 200810132524.0 | 申请日: | 2008-07-16 |
公开(公告)号: | CN101630198A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 侯伟华 | 申请(专利权)人: | 侯伟华 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 10083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 自然 文本 自动 词组 提取 技术 | ||
1.一种自动词组提取技术,其特征在于,在汉字输入的过程中,根据用户的输入码,从预先准备的自然文本中自动提取出所期望的词组,这些词组都不需要预先预先特别定义。
2.一种自动词组提取技术,其特征在于,对一串由用户输入的汉字输入码ABCDEF,首先根据第一个输入码A,从预先准备的自然文本中检索出一个输入码亦为A的汉字,继而提取出相邻的下一汉字,通过查表得到其对应的输入码X,将X与输入码ABCDEF中的对应部分B进行比较,如果符合,则再提取下一字重复进行类似比较,直至CDEF均符合为止,由此得到的输入码符合ABCDEF的汉字序列,即为自动提取出的词组。
3.根据权利要求2所述,所谓输入码ABCDEF,其中的每个字母代表一个汉字的输入码,在实际输入过程中可以是一个或多个对应的字母或数字。
4.根据权利要求2所述,其特征在于,汉字与输入码的对应关系,来自于预先准备的“汉字-输入码”对照表,一个汉字可以对应一个或多个输入码,如果一个汉字对应多个输入码,在上述2的过程中,对同一汉字所对应的多个输入码X要进行多次与B的比较。
5.根据权利要求2所述,其检索判断的过程,可以从上述“ABCDEF”的任意部分开始,还可以同时进行多个“汉字-输入码”的检索判断,只要最终得到的汉字序列所对应的输入码能够符合ABCDEF即可,对于不同的具体实施方案,可以是全部符合ABCDEF,也可以是部分符合。
6.一种自动词组提取技术,其特征在于,在检索出候选的词组后,还可以配合其他技术,对所检索结果的有效性进行判断,并根据出现的频率排序,使候选词组的数量降至最少,便于用户选择。
7.根据权利要求2所述,其特征在于,所谓“自然文本”,是指可以被电脑储存、检索的各种电子化文档或网络内容,如电子文本的书籍、论文、报告、新闻稿件等,不再需要任何另外的加工,文件的大小也不受限制。
8.一种自动词组提取技术,其特征在于,其与汉字输入法的键盘编码方案无关,可以适用于各种汉字输入法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于侯伟华,未经侯伟华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810132524.0/1.html,转载请声明来源钻瓜专利网。