[发明专利]基于关联规则模式的新词识别方法无效

申请号：	200610073430.1	申请日：	2006-03-28
公开（公告）号：	CN101046809A	公开（公告）日：	2007-10-03
发明（设计）人：	吴风勇	申请（专利权）人：	吴风勇
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	830000新疆维吾尔自治区乌鲁***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于关联规则模式的新词识别方法，借助该方法，在不改变搜索引擎现有的分词规则和方法的前提下，可以从互联网搜索引擎的关键字查询日志中学习新的中文词汇，原则上能够识别出包含任意多个汉字的新词汇，也可以识别出关键字查询日志中没有独立出现的“隐含”新词汇；而且，不论关键字所包含汉字数量的多少，均使用关联规则模式下的相同计算公式进行新词识别，提高了本发明的可实现性。
搜索关键词：	基于关联规则模式新词识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于关联规则模式的新词识别方法，其特征在于，借助该方法可以从互联网搜索引擎的关键字查询日志中学习新的中文词汇，包括以下步骤：1)将互联网搜索引擎关键字查询日志通过输入模块输入；2)预处理模块对输入的关键字查询日志进行预处理，删除单个汉字的关键字以及不包含汉字成分的关键字，将剩余的关键字按照其中包含的汉字字数进行分类，根据每个关键字类别中所有关键字的总提交次数以及不同关键字数量设置该关键字类别的类别阀值，将其中提交次数低于类别阀值的关键字删除；3)对于预处理后剩余的关键字，按照所含汉字字数由小到大的顺序以关键字类别为单位依次进行新词识别：首先，针对该关键字类别中的每一个关键字，分词处理模块以分词词库中现有词汇为基础进行分词处理；然后，新词识别模块按照下列步骤对该关键字进行新词识别处理：a)如果分词结果为一个已有词汇，则停止对该关键字的新词识别，接着对该关键字类别的下一个关键字进行新词识别处理；b)如果分词结果为A、B两部分，则按照关联规则模式的公式计算A和B的关联作用度；如果A和B的关联作用度大于设定的关联作用度阀值，则将该关键字整体作为一个新词加入分词词库，然后对该关键字类别的下一个关键字进行新词识别处理；否则，直接对该关键字类别的下一个关键字进行新词识别处理；c)如果分词结果为A、B、C三部分或者三个以上部分，则按下列步骤对该关键字进行新词识别：首先，将该关键字分词结果各个部分按现有位置顺序组合为X和Y两大部分，针对所有的组合按照关联规则模式的公式计算X和Y两大部分之间的关联作用度；然后，在所有的组合中选取关联作用度最大的组合输出；如果该最大关联作用度输出组合的关联作用度大于设定的关联作用度阀值，则将该关键字整体作为一个新词加入分词词库；最后，不论该关键字是否作为一个新词加入分词词库，均将其最大关联作用度输出组合中的X和Y两大部分分别作为关键字按照a)至c)步骤进行新词识别，直至按照a)至c)步骤的规则完全停止对该关键字的新词识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吴风勇，未经吴风勇许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200610073430.1/，转载请声明来源钻瓜专利网。

上一篇：一种无线通信系统中自动重传请求分布式反馈方法
下一篇：相向双流热能交换回收技术

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于关联规则模式的新词识别方法无效

专利文献下载