[发明专利]一种基于词典的lucene中文分词方法有效

申请号：	201510977358.4	申请日：	2015-12-23
公开（公告）号：	CN105426539B	公开（公告）日：	2018-12-18
发明（设计）人：	孙健;陆川;张祥	申请（专利权）人：	成都云数未来信息科学有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平;陈靓靓
地址：	四川省成都市双流区西南航***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于词典的中文分词方法，首先收集语料，构建专业词典，构建方法为：首先去除停用词，将语料划分为文本片段，从文本片段中提取候选词，统计候选词和每个单字在所有文本片段中的出现概率，计算每个候选词中两个汉字的互信息，互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词，然后对筛选后的候选词进行合并，将合并处理后的候选词采用通用词典进行匹配过滤，将过滤后的候选词加入专业词典；对待分词文本先采用专业词典进行分词，剩下的文本再采用通用词典进行分词。本发明基于统计的方法从语料中抽取专业术语来构建专业词典，通用性较强，采用该专业词典进行分词可以有效满足专业领域的要求。
搜索关键词：	一种基于词典 lucene 中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词典的lucene中文分词方法，其特征在于，包括以下步骤：S1：收集语料，构建专业词典，其具体步骤为：S1.1：对收集到的语料去除停用词，将语料划分成文本片段；S1.2：对每个文本片段，提取相邻两个字作为候选词，对候选词按顺序进行编号，统计候选词和每个单字在所有文本片段中的出现概率；S1.3：计算每个候选词中两个汉字X和Y的互信息M(X,Y)：其中P(X,Y)是汉字X和Y的相邻共现概率，P(X)、P(Y)分别是汉字X、Y的出现概率；如果候选词的互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词；S1.4：在筛选得到的候选词中，如果两个以上候选词的编号连续，并且前一个候选词的末字与后一个候选词的首字相同，则将这些候选词按照顺序进行合并，其他候选词不作任何操作；S1.5：将合并处理后的候选词与通用词典进行匹配，如果候选词属于通用词典，则将该候选词删除，否则再将候选词与专业词典进行匹配，如果尚未存在于专业词典中，则加入专业词典，否则不作任何操作；S2：从待分词文本中去除停用词，然后对待分词文本采用专业词典分词，专业词典分词后剩下的文本再采用通用词典进行分词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都云数未来信息科学有限公司，未经成都云数未来信息科学有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510977358.4/，转载请声明来源钻瓜专利网。

上一篇：一种读取网页资源的方法、装置及电子设备
下一篇：基于搜索提示的搜索方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词典的lucene中文分词方法有效

专利文献下载