[发明专利]基于关联规则模式的新词识别方法无效
申请号: | 200610073430.1 | 申请日: | 2006-03-28 |
公开(公告)号: | CN101046809A | 公开(公告)日: | 2007-10-03 |
发明(设计)人: | 吴风勇 | 申请(专利权)人: | 吴风勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 830000新疆维吾尔自治区乌鲁*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于关联规则模式的新词识别方法,借助该方法,在不改变搜索引擎现有的分词规则和方法的前提下,可以从互联网搜索引擎的关键字查询日志中学习新的中文词汇,原则上能够识别出包含任意多个汉字的新词汇,也可以识别出关键字查询日志中没有独立出现的“隐含”新词汇;而且,不论关键字所包含汉字数量的多少,均使用关联规则模式下的相同计算公式进行新词识别,提高了本发明的可实现性。 | ||
搜索关键词: | 基于 关联 规则 模式 新词 识别 方法 | ||
【主权项】:
1.基于关联规则模式的新词识别方法,其特征在于,借助该方法可以从互联网搜索引擎的关键字查询日志中学习新的中文词汇,包括以下步骤:1)将互联网搜索引擎关键字查询日志通过输入模块输入;2)预处理模块对输入的关键字查询日志进行预处理,删除单个汉字的关键字以及不包含汉字成分的关键字,将剩余的关键字按照其中包含的汉字字数进行分类,根据每个关键字类别中所有关键字的总提交次数以及不同关键字数量设置该关键字类别的类别阀值,将其中提交次数低于类别阀值的关键字删除;3)对于预处理后剩余的关键字,按照所含汉字字数由小到大的顺序以关键字类别为单位依次进行新词识别:首先,针对该关键字类别中的每一个关键字,分词处理模块以分词词库中现有词汇为基础进行分词处理;然后,新词识别模块按照下列步骤对该关键字进行新词识别处理:a)如果分词结果为一个已有词汇,则停止对该关键字的新词识别,接着对该关键字类别的下一个关键字进行新词识别处理;b)如果分词结果为A、B两部分,则按照关联规则模式的公式计算A和B的关联作用度;如果A和B的关联作用度大于设定的关联作用度阀值,则将该关键字整体作为一个新词加入分词词库,然后对该关键字类别的下一个关键字进行新词识别处理;否则,直接对该关键字类别的下一个关键字进行新词识别处理;c)如果分词结果为A、B、C三部分或者三个以上部分,则按下列步骤对该关键字进行新词识别:首先,将该关键字分词结果各个部分按现有位置顺序组合为X和Y两大部分,针对所有的组合按照关联规则模式的公式计算X和Y两大部分之间的关联作用度;然后,在所有的组合中选取关联作用度最大的组合输出;如果该最大关联作用度输出组合的关联作用度大于设定的关联作用度阀值,则将该关键字整体作为一个新词加入分词词库;最后,不论该关键字是否作为一个新词加入分词词库,均将其最大关联作用度输出组合中的X和Y两大部分分别作为关键字按照a)至c)步骤进行新词识别,直至按照a)至c)步骤的规则完全停止对该关键字的新词识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴风勇,未经吴风勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610073430.1/,转载请声明来源钻瓜专利网。