[发明专利]一种中文真词错误自动校对方法有效

申请号：	201610145237.8	申请日：	2016-03-15
公开（公告）号：	CN105824800B	公开（公告）日：	2018-06-26
发明（设计）人：	顾德之;刘亮亮;吴健康;刘海波;张再跃;张晓如	申请（专利权）人：	江苏科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	许丹丹
地址：	212003***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种中文真词错误自动校对方法，该方法首先利用正确词词典和汉字混淆集生成中文真词混淆集；利用统计知识对当前词进行验证；通过同义词泛化上下文特征缓解语料的数据稀疏问题；利用贝叶斯模型估计当前词出现在上下文中的概率，最终判断当前词是否为真词错误，对真词错误进行标记并给出修改建议列表。本发明的中文真词错误自动校对方法解决了现有技术中数据稀疏、正确词误判、校对效率低等问题，具有较高的有效性和准确性。
搜索关键词：	自动校对中文数据稀疏混淆同义词贝叶斯模型上下文特征效率低等误判语料校对汉字验证概率缓解统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种中文真词错误自动校对方法，其特征在于，包括以下步骤：(1)利用正确词词典和汉字混淆集生成中文真词混淆集；(2)对Web语料中的句子进行分词，建立左向三元、右向三元和中间三元模型，对于某一词Wi，根据其左向三元、右向三元、中间三元在语料中出现的频次确定该词的第一统计值，若该词的第一统计值大于预设的第一门限α则该词为正确词；否则，利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元，根据该词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该词的第二统计值，若该词的第二统计值大于所述第一门限α则该词为正确词；否则，进入步骤(3)；(3)利用极大似然估计计算该词出现在上下文的第一贝叶斯概率，若该词的第一贝叶斯概率大于预设的第二门限β则该词为正确词；否则，利用同义词泛化该词的上下文特征，计算该词出现在上下文的第二贝叶斯概率，若该词的第二贝叶斯概率大于第三门限γ则该词为正确词；否则，进入步骤(4)；(4)利用该词的真词混淆集C(Wi)中的混淆词来代替该词形成混淆词的左向三元、右向三元和中间三元，对于任意混淆词，根据该混淆词左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第一统计值，若该词的真词混淆集C(Wi)中存在第一统计值大于所述第一门限α的混淆词，则该词为错词，将这些混淆词按其第一统计值的大小进行降序排列形成该词的修改建议表；否则，进入步骤(5)；(5)利用该词的真词混淆集C(Wi)中任意混淆词Wih来代替该词，利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元，根据该混淆词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第二统计值，若存在第二统计值大于所述第一门限α的混淆词，则该词为错词；将这些混淆词按其第二统计值的大小进行降序排列形成该词的修改建议表；否则，进入步骤(6)；(6)利用该词的真词混淆集C(Wi)中任意混淆词Wih来代替该词，利用极大似然估计计算该混淆词出现在上下文的第一贝叶斯概率，若存在第一贝叶斯概率大于所述第二门限β的混淆词，则该词为错词，将这些混淆词按其第一贝叶斯概率的大小进行降序排列形成该词的修改建议表；否则，利用同义词泛化该词的上下文特征，计算该词任意混淆词出现在上下文的第二贝叶斯概率，若存在第二贝叶斯概率大于所述第三门限γ的混淆词，则该词为错词，将这些混淆词按其第二贝叶斯概率的大小进行降序排列形成该词的修改建议表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏科技大学，未经江苏科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610145237.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文真词错误自动校对方法有效

专利文献下载