[发明专利]基于海量自然文本的自动词组提取技术无效

申请号：	200810132524.0	申请日：	2008-07-16
公开（公告）号：	CN101630198A	公开（公告）日：	2010-01-20
发明（设计）人：	侯伟华	申请（专利权）人：	侯伟华
主分类号：	G06F3/023	分类号：	G06F3/023;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	10083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于海量自然文本自动词组提取技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自动词组提取技术，其特征在于，在汉字输入的过程中，根据用户的输入码，从预先准备的自然文本中自动提取出所期望的词组，这些词组都不需要预先预先特别定义。

2.一种自动词组提取技术，其特征在于，对一串由用户输入的汉字输入码ABCDEF，首先根据第一个输入码A，从预先准备的自然文本中检索出一个输入码亦为A的汉字，继而提取出相邻的下一汉字，通过查表得到其对应的输入码X，将X与输入码ABCDEF中的对应部分B进行比较，如果符合，则再提取下一字重复进行类似比较，直至CDEF均符合为止，由此得到的输入码符合ABCDEF的汉字序列，即为自动提取出的词组。

3.根据权利要求2所述，所谓输入码ABCDEF，其中的每个字母代表一个汉字的输入码，在实际输入过程中可以是一个或多个对应的字母或数字。

4.根据权利要求2所述，其特征在于，汉字与输入码的对应关系，来自于预先准备的“汉字-输入码”对照表，一个汉字可以对应一个或多个输入码，如果一个汉字对应多个输入码，在上述2的过程中，对同一汉字所对应的多个输入码X要进行多次与B的比较。

5.根据权利要求2所述，其检索判断的过程，可以从上述“ABCDEF”的任意部分开始，还可以同时进行多个“汉字-输入码”的检索判断，只要最终得到的汉字序列所对应的输入码能够符合ABCDEF即可，对于不同的具体实施方案，可以是全部符合ABCDEF，也可以是部分符合。

6.一种自动词组提取技术，其特征在于，在检索出候选的词组后，还可以配合其他技术，对所检索结果的有效性进行判断，并根据出现的频率排序，使候选词组的数量降至最少，便于用户选择。

7.根据权利要求2所述，其特征在于，所谓“自然文本”，是指可以被电脑储存、检索的各种电子化文档或网络内容，如电子文本的书籍、论文、报告、新闻稿件等，不再需要任何另外的加工，文件的大小也不受限制。

8.一种自动词组提取技术，其特征在于，其与汉字输入法的键盘编码方案无关，可以适用于各种汉字输入法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于侯伟华，未经侯伟华许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810132524.0/1.html，转载请声明来源钻瓜专利网。

上一篇：包括具有时间变化特征的日志功能的医药系统用户界面
下一篇：最小化模拟-数字转换器中的偏移误差

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于海量自然文本的自动词组提取技术无效

专利文献下载