[发明专利]一种敏感词校对的方法及系统无效
申请号: | 200810224894.7 | 申请日: | 2008-10-24 |
公开(公告)号: | CN101727440A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 李少明;陈志雄;朱建波 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 校对 方法 系统 | ||
技术领域
本发明属于文字校对领域,特别涉及一种敏感词校对的方法及系统。
背景技术
目前的文字校对领域中,主要通过先定义敏感词后检查的方式进行的,并且定义的敏感词要遍历所有可能出现的情况,然后通过一一匹配的方式进行校对。
具体步骤如下:
步骤1、确定要定义的敏感词,如要定义一个敏感词:“俯卧撑”。
步骤2、将“俯卧撑”这个词,以及这个词的所有变形,如:“负卧撑”、“俯卧程”等等都增加到敏感词库中。
步骤3、从被校对文本中获取被校对词,根据敏感词及其变形进行校对,如果发现被校对文本中出现和已经定义的敏感词相同的被校对词就提示错误,并提示用户修改。
基于上述的敏感词校对方法,必须遍历所有的敏感词及变形的组合,增加到敏感词库中,虽然在敏感词库中已经增加的敏感词及变形可以校对出来,但如果是没有定义增加的变形如:“俯我撑”,就校对不出,这样做,敏感词的变形词校对的准确率比较低。
发明内容
本发明实施例的目的在于提供了一种敏感词校对的方法,为了解决现有技术中对敏感词的变形词校对的准确率比较低的问题。
为实现上述目的,本发明实施例提供了一种敏感词校对的方法,包括:
通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;
从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;
根据被校对词与敏感词,彼此之间的拼音字母组成信息相同,确定被校对词为敏感词。
同时本发明实施例还提供一种敏感词校对的系统,包括:
存储装置:用于存储内码和字的拼音字母组成信息的对应关系;
敏感词获取装置:用于通过组成敏感词的字的内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;
被校对词获取装置:用于通过组成被校对词的汉字内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;
校对装置:用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若相同,则确定被校对词为敏感词。
由上述本发明提供的具体实施方案可以看出,正是由于通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的变形词的校对准确率。
附图说明
图1为本发明提供的第一实施例方法流程图;
图2为本发明提供的第二实施例系统结构图。
具体实施方式
为了解决现有技术中对敏感词的变形词校对的准确率比较低的问题,本发明实施例提供了一种敏感词校对的方法,首先确定组成敏感词的字的内码,并内码和字的拼音字母组成信息的对应关系表,确定敏感词拼音字母组成信息,随后从被校对文本中获取被校对词,通过组成被校对词的字的内码,及前述的对应关系表,确定被校对词拼音字母组成信息,若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词。
本发明提供的第一实施例一种敏感词校对的方法,方法流程如图1所示,包括:
步骤102:确定组成敏感词“拔牙”的“拔”和“牙”字的内码(GBK内码)分别为:B0CE和D1C0。
本实施例中采用的内码为GBK内码,但并不局限于GBK内码,也可采用其它内码如:区位码和Uincode码。
通过查找相关内码的定义,可以确定“拔”“牙”字的内码为分别为:B0CE和D1C0(采用16进制表示)。通过所有的敏感词生成一个敏感词库,在进行后续校对时对敏感词库中的敏感词逐一校对。实际使用过程中可以在敏感词库中增加、删除和修改敏感词。
步骤104:通过内码B0CE和D1C0以及表1(表1为内码和字的拼音字母组成信息的对应关系表),确定敏感词“拔牙”拼音字母组成信息为000100000100000000000000000110010000100000000000000000。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224894.7/2.html,转载请声明来源钻瓜专利网。