[发明专利]一种敏感词校对的方法及系统无效
申请号: | 200810224894.7 | 申请日: | 2008-10-24 |
公开(公告)号: | CN101727440A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 李少明;陈志雄;朱建波 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 校对 方法 系统 | ||
1.一种敏感词校对的方法,其特征在于,包括:
通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;
从被校对文本中获取被校对词,通过组成被校对词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;
被校对词与敏感词,彼此之间的拼音字母组成信息相同时,确定被校对词为敏感词。
2.如权利要求1所述的方法,其特征在于,拼音字母组成信息以数字编码的方式表示。
3.如权利要求1所述的方法,其特征在于,还包括:在被校对文本中突显出被确定为敏感词的被校对词。
4.如权利要求2所述的方法,其特征在于,若敏感词中包括多音字,则通过敏感词内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词的多个拼音字母组成信息;
和/或,若被校对词中包括多音字,则通过被校对词内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词的多个拼音字母组成信息;
根据被校对词与敏感词,彼此之间的拼音字母组成信息中一对相同,确定被校对词为敏感词。
5.如权利要求3所述的方法,其特征在于,将敏感词预存于敏感词库中,对敏感词库中的敏感词逐一校对。
6.如权利要求4所述的方法,其特征在于,存储内码和字的拼音字母组成信息的对应关系的文件,按内码的顺序进行存储。
7.一种敏感词校对的系统,其特征在于,包括:
存储装置:用于存储内码和字的拼音字母组成信息的对应关系;
敏感词获取装置:用于通过组成敏感词的字的内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;
被校对词获取装置:用于通过组成被校对词的汉字内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;
校对装置:用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若相同,则确定被校对词为敏感词。
8.如权利要求7所述的系统,其特征在于,敏感词获取装置:还用于若敏感词中包括多音字,则通过敏感词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词的多个拼音字母组成信息;和/或
被校对词获取装置:还用于若被校对词中包括多音字,则通过被校对词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词的多个拼音字母组成信息;
校对装置:还用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若其中一对相同,则确定被校对词为敏感词。
9.如权利要求7所述的系统,其特征在于,还包括:敏感词库:用于存储敏感词。
10.如权利要求7所述的系统,其特征在于,还包括:显示装置:在被校
对文本中突显出被确定为敏感词的被校对词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224894.7/1.html,转载请声明来源钻瓜专利网。