[发明专利]基于规则和语料库的汉语语病自动检测方法及设备有效
申请号: | 201811268613.8 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109460552B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 朱丽莉;谭代龙 | 申请(专利权)人: | 朱丽莉 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 646100 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 语料库 汉语 语病 自动检测 方法 设备 | ||
1.一种基于规则和语料库的汉语语病自动检测方法,其特征在于,包括文本获取、句子分层、自动分词和语病检测;
所述文本获取为获取待校文本数据;
所述句子分层包括读取文本,获取文本中的句子数量,并将获取的文本划分为单句;
所述自动分词包括以下步骤:
正向切分字符串步骤,以单句为单位,获取单句字符串长度,从左往右依次切分出长度不等的字符串,即从第一个字符开始,依次切分出N个字符、N-1个字符、N-2个字符、…、两个字符、一个字符的字符串,N为单句字符串长度;
逆向切分字符串步骤,以单句为单位,获取单句字符串长度,从右往左依次切分出长度不等的字符串,即从最后一个字符开始,依次切分出一个字符、两个字符、三个字符、…、N个字符的字符串;
自动分词步骤,将切分出的字符串依次与预先构建的语料库中的固定式语料库和词语语料库比对,若匹配成功,则输出该字符串并标记序列号为1,2,3,...,z,若匹配失败,则将未被标记序列号的其他单个字符逐一与预先构建的语料库中的单字词语料库比对,若匹配成功,则为单字词,输出该单字词并标记对应的序列号为z+1,z+2,z+3,...,若匹配失败,则与预先构建的语料库中的非单字词语料库比对,若匹配成功,则为非单字词,输出该非单字词,若匹配失败,则保留该字符;
所述语病检测为根据所述自动分词的结果和预先构建的语料库进行语病检测;
所述预先构建的语料库包括固定式语料库、字母语料库、标点语料库、拼音语料库、繁简字语料库、语句语料库、词语语料库和单字词语料库;根据所述预先构建的语料库,进行的语病检测包括错别字检测、用词不当检测、句法结构检测和语义表达检测。
2.根据权利要求1所述的一种基于规则和语料库的汉语语病自动检测方法,其特征在于,语病检测包括错别字检测,所述错别字检测包括以下步骤:
错别字正向检测步骤,所述错别字正向检测步骤包括以下子步骤:
字母检测子步骤,判断切分字符串步骤中,切分出的字符串是否有数字或字母,若是,则将切分出的字符串与预先构建的语料库中的字母语料库比对,如果形式正确,则输出该字符串,如果形式错误,则输出该字符串并标记为(*);
标点检测子步骤,判断切分字符串步骤中,切分出的字符串中是否含有标点符号或特殊符号,若是,则将切分出的字符串与预先构建的语料库中的标点语料库比对,如果形式正确,则输出该字符串,如果形式错误,则输出该字符串并标记为(*);
拼音检测子步骤,判断切分字符串步骤中,切分出的字符串是否有拼音,若是,则将切分出的字符串与预先构建的语料库中的拼音语料库比对,如果形式正确,则输出该字符串,如果形式错误,输出该字符串并标记为(*);
繁体字检测子步骤,将待校文本与预先构建的语料库中的繁简字语料库比对,判断切分字符串步骤中,切分出的字符串是否有繁体字,若是,则获取繁体字数量,并将繁体字逐一提取,判断它是否属于引用或特别使用情况,若不是引用或特别使用,输出该繁体字并标记为(*);
单字词检测子步骤,将自动分词步骤中,判断为单字词的单字与下一单字组合,与预先构建的语料库中的语句语料库比对,若匹配成功,则输出该单字;将自动分词步骤中,判断为非单字词的单字与下一单字组合,与预先构建的语料库中的语句语料库比对,若匹配成功,则输出该单字,若匹配失败,则输出该单字并标记为(*);
错别字逆向检测步骤,以单句为单位,从右至左,将自动分词步骤中,判断为单字词的单字与下一单字组合,与预先构建的语料库中的语句语料库比对,若匹配成功,则输出该单字;将自动分词步骤中,判断为非单字词的单字与下一单字组合,与预先构建的语料库中的语句语料库比对,若匹配成功,则输出该单字,若匹配失败,则输出该单字并标记为(*)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱丽莉,未经朱丽莉许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811268613.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:签名信息提取方法及装置
- 下一篇:一种基于门限卷积神经网络的机器阅读理解方法