[发明专利]中文分词方法有效

申请号：	02127005.8	申请日：	2002-07-25
公开（公告）号：	CN1471024A	公开（公告）日：	2004-01-28
发明（设计）人：	陈桂林;陈芳	申请（专利权）人：	摩托罗拉公司
主分类号：	G06F17/21	分类号：	G06F17/21
代理公司：	北京纪凯知识产权代理有限公司	代理人：	沙捷
地址：	美国伊***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种用于中文文本处理系统的中文分词方法，包括取得输入汉字串的前两个汉字；在词库中检索出与前两个汉字的起始汉字相关的索引节点；取得该索引节点中的指针，该指针指向该词库中相应的词汇集合；在词汇集合中进行近似二分查找，如果找到该两个汉字词汇，则保存该词汇的索引，否则，保存与该两个汉字最接近的词汇的索引；对于输入汉字串，在该词汇集合中执行邻近匹配，以获得具有最大长度的匹配词汇，并把该匹配的词汇作为当前分词的结果。对于上述分词结果，本发明还进行切分歧义消解、识别中文人名、归并数词、量词和叠词、识别翻译人名、归并单字以及归并前后缀和识别地名。本发明在分词准确率和响应时间方面得到了重大改进。
搜索关键词：	中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于中文文本处理系统的中文分词方法，该中文文本处理系统包括其数据结构支持哈希运算(Hashing Operation)的词库，其特征在于所述方法包括：取得输入汉字串的前两个汉字；在所述词库中检索出与所述前两个汉字的起始汉字相关的索引节点；取得所述索引节点中的指针，该指针指向所述词库中相应的词汇集合；在所述词汇集合中进行近似二分查找，如果找到所述两个汉字词汇，则保存该词汇的索引，否则，保存与所述两个汉字最接近的词汇的索引；对于所述输入汉字串，在所述词汇集合中执行邻近匹配，以获得具有最大长度的匹配词汇，并把该匹配的词汇作为当前分词的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司，未经摩托罗拉公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/02127005.8/，转载请声明来源钻瓜专利网。

上一篇：汉字或非拼音文字的隐形解译电脑字型
下一篇：使用韵律控制的中文文本至语音拼接合成系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文分词方法有效

专利文献下载