[发明专利]基于海量自然文本的自动词组提取技术无效

专利信息
申请号: 200810132524.0 申请日: 2008-07-16
公开(公告)号: CN101630198A 公开(公告)日: 2010-01-20
发明(设计)人: 侯伟华 申请(专利权)人: 侯伟华
主分类号: G06F3/023 分类号: G06F3/023;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 10083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 海量 自然 文本 自动 词组 提取 技术
【权利要求书】:

1.一种自动词组提取技术,其特征在于,在汉字输入的过程中,根据用户的输入码,从预先准备的自然文本中自动提取出所期望的词组,这些词组都不需要预先预先特别定义。

2.一种自动词组提取技术,其特征在于,对一串由用户输入的汉字输入码ABCDEF,首先根据第一个输入码A,从预先准备的自然文本中检索出一个输入码亦为A的汉字,继而提取出相邻的下一汉字,通过查表得到其对应的输入码X,将X与输入码ABCDEF中的对应部分B进行比较,如果符合,则再提取下一字重复进行类似比较,直至CDEF均符合为止,由此得到的输入码符合ABCDEF的汉字序列,即为自动提取出的词组。

3.根据权利要求2所述,所谓输入码ABCDEF,其中的每个字母代表一个汉字的输入码,在实际输入过程中可以是一个或多个对应的字母或数字。

4.根据权利要求2所述,其特征在于,汉字与输入码的对应关系,来自于预先准备的“汉字-输入码”对照表,一个汉字可以对应一个或多个输入码,如果一个汉字对应多个输入码,在上述2的过程中,对同一汉字所对应的多个输入码X要进行多次与B的比较。

5.根据权利要求2所述,其检索判断的过程,可以从上述“ABCDEF”的任意部分开始,还可以同时进行多个“汉字-输入码”的检索判断,只要最终得到的汉字序列所对应的输入码能够符合ABCDEF即可,对于不同的具体实施方案,可以是全部符合ABCDEF,也可以是部分符合。

6.一种自动词组提取技术,其特征在于,在检索出候选的词组后,还可以配合其他技术,对所检索结果的有效性进行判断,并根据出现的频率排序,使候选词组的数量降至最少,便于用户选择。

7.根据权利要求2所述,其特征在于,所谓“自然文本”,是指可以被电脑储存、检索的各种电子化文档或网络内容,如电子文本的书籍、论文、报告、新闻稿件等,不再需要任何另外的加工,文件的大小也不受限制。

8.一种自动词组提取技术,其特征在于,其与汉字输入法的键盘编码方案无关,可以适用于各种汉字输入法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于侯伟华,未经侯伟华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810132524.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top