[发明专利]一种变异关键词的提取方法无效
申请号: | 200810045712.X | 申请日: | 2008-07-31 |
公开(公告)号: | CN101324883A | 公开(公告)日: | 2008-12-17 |
发明(设计)人: | 傅彦;陈安龙;周俊临;尚明生;史伟;王全礼;关娜 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市路盛律师事务所 | 代理人: | 温利平 |
地址: | 611731四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变异 关键词 提取 方法 | ||
技术领域
本发明涉及中文网络信息处理领域,具体来讲,涉及短信等文本信息中变异关键词的提取方法。
背景技术
当前的中文网络信息中,非法信息传递者为了逃过信息过滤系统的监管,对敏感词等关键词进行了变异,对电子邮件、短信息等进行分析,关键词变异主要集中在以下几方面:
1)、在关键词中键入一些无意义的与内容无关的非汉字噪音字符,例如:“哈+尔*滨”中的“+”和“*”号;
2)、对关键词进行谐音字替换,例如“哈尔滨”的“滨”字被写成了“宾”;
3)、对关键词进行拼音替换,例如“哈尔滨”的“滨”字被写成了“bin”;
4)、对关键词进行形近字替换,例如“哈尔滨”的“哈”字被写成了“冾”;
5)、利用上述手段进行组合变换,例如“哈尔滨”被写成了“冾尔*宾”或者“冾尔&滨”等。
对于一般的文本信息,我们可以对其进行分词处理,得到分词后文本,然后用常规关键词库匹配提取。但是如果对这些关键词进行了变异,则分词之后的文本用传统的几个连续的单字构成的关键词库来提取是不能够正确提取的。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能够提取变异关键词的方法。
为实现上述目的,本发明的变异关键词的提取方法包括以下步骤:
(1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中其区位码属于01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步,否则,直接进行下一步;
(2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步;
(3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(2)中的关键词库中的所有关键词通过拼音文件也转换为关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;
(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近字库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
本发明通过字符区位将噪音字符去除,提取出噪音字符的变异关键词;通过拼音文件将分词后文本和关键词转换为文本整数串,然后提取拼音替换、谐音替换的变异关键词;通过建立形近字库,比较分词后文本的每一个汉字与关键词库中的关键词的每一个汉字是否为同一组形近字,提取形近字替换的变异关键词,这样实行了变异关键词的正常提取。
附图说明
图1是本发明变异关键词的提取方法的流程图;
图2是本发明形近字库建立的一种具体实施方式流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这儿将被忽略。
图1是本发明变异关键词的提取方法的流程图。图中,本发明的变异关键策的提取方法包括:
(1)、对分词后文本,首先对其进行噪音字符去除处理,可以通过在区位码中汉字与特殊字符,即噪音字符所占位置的不同来处理,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字,通过判断它们的区位码很容易将01-09区内特殊字符去除掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步;如果没有噪音字符,则直接进行下一步;
(2)、对于常规关键词,即没有变异处理过的关键词或去除噪音字符的噪音字符的变异关键词,则建立关键词库,将分词后文本直接或去除噪音字符后送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步,看是否是拼音替换、谐音替换的变异关键词;
(3)、拼音替换、谐音替换的变异关键词,则建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(1)中的关键词库中的所有关键词通过拼音文件也转换关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;比如对于关键词“一劳永逸”,经过这样的拼音的变换后,字符串被转换成了一个整数串“81 182 56 81”。在本步骤中,完成了字符串级别的模糊匹配到类串级别的精确匹配的变换,这样就可以借助经典的WM算法进行多模式的精确匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810045712.X/2.html,转载请声明来源钻瓜专利网。