[发明专利]一种变异关键词的提取方法无效
申请号: | 200810045712.X | 申请日: | 2008-07-31 |
公开(公告)号: | CN101324883A | 公开(公告)日: | 2008-12-17 |
发明(设计)人: | 傅彦;陈安龙;周俊临;尚明生;史伟;王全礼;关娜 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市路盛律师事务所 | 代理人: | 温利平 |
地址: | 611731四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种变异关键词的提取方法,通过字符区位将噪音字符去除,提取出噪音字符的变异关键词;通过拼音文件将分词后文本和关键词转换为文本整数串,然后提取拼音替换、谐音替换的变异关键词;通过建立形近字库,比较分词后文本的每个汉字与关键词库中的关键词的每个汉字是否为同一组形近字,提取形近字替换的变异关键词,这样实行了变异关键词的正常提取。 | ||
搜索关键词: | 一种 变异 关键词 提取 方法 | ||
【主权项】:
1、一种变异关键词的提取方法,其特征在于,包括以下步骤:(1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中的01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步,否则,直接进行下一步;(2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步;(3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(1)中的关键词库中的所有关键词通过拼音文件也转换关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近词库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810045712.X/,转载请声明来源钻瓜专利网。