[发明专利]一种中文真词错误自动校对方法有效
申请号: | 201610145237.8 | 申请日: | 2016-03-15 |
公开(公告)号: | CN105824800B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 顾德之;刘亮亮;吴健康;刘海波;张再跃;张晓如 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 许丹丹 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文真词错误自动校对方法,该方法首先利用正确词词典和汉字混淆集生成中文真词混淆集;利用统计知识对当前词进行验证;通过同义词泛化上下文特征缓解语料的数据稀疏问题;利用贝叶斯模型估计当前词出现在上下文中的概率,最终判断当前词是否为真词错误,对真词错误进行标记并给出修改建议列表。本发明的中文真词错误自动校对方法解决了现有技术中数据稀疏、正确词误判、校对效率低等问题,具有较高的有效性和准确性。 | ||
搜索关键词: | 自动校对 中文 数据稀疏 混淆 同义词 贝叶斯模型 上下文特征 效率低等 误判 语料 校对 汉字 验证 概率 缓解 统计 | ||
【主权项】:
1.一种中文真词错误自动校对方法,其特征在于,包括以下步骤:(1)利用正确词词典和汉字混淆集生成中文真词混淆集;(2)对Web语料中的句子进行分词,建立左向三元、右向三元和中间三元模型,对于某一词Wi,根据其左向三元、右向三元、中间三元在语料中出现的频次确定该词的第一统计值,若该词的第一统计值大于预设的第一门限α则该词为正确词;否则,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该词的第二统计值,若该词的第二统计值大于所述第一门限α则该词为正确词;否则,进入步骤(3);(3)利用极大似然估计计算该词出现在上下文的第一贝叶斯概率,若该词的第一贝叶斯概率大于预设的第二门限β则该词为正确词;否则,利用同义词泛化该词的上下文特征,计算该词出现在上下文的第二贝叶斯概率,若该词的第二贝叶斯概率大于第三门限γ则该词为正确词;否则,进入步骤(4);(4)利用该词的真词混淆集C(Wi)中的混淆词来代替该词形成混淆词的左向三元、右向三元和中间三元,对于任意混淆词,根据该混淆词左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第一统计值,若该词的真词混淆集C(Wi)中存在第一统计值大于所述第一门限α的混淆词,则该词为错词,将这些混淆词按其第一统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(5);(5)利用该词的真词混淆集C(Wi)中任意混淆词Wih来代替该词,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该混淆词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第二统计值,若存在第二统计值大于所述第一门限α的混淆词,则该词为错词;将这些混淆词按其第二统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(6);(6)利用该词的真词混淆集C(Wi)中任意混淆词Wih来代替该词,利用极大似然估计计算该混淆词出现在上下文的第一贝叶斯概率,若存在第一贝叶斯概率大于所述第二门限β的混淆词,则该词为错词,将这些混淆词按其第一贝叶斯概率的大小进行降序排列形成该词的修改建议表;否则,利用同义词泛化该词的上下文特征,计算该词任意混淆词出现在上下文的第二贝叶斯概率,若存在第二贝叶斯概率大于所述第三门限γ的混淆词,则该词为错词,将这些混淆词按其第二贝叶斯概率的大小进行降序排列形成该词的修改建议表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610145237.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种查找软件功能的方法及装置
- 下一篇:文本中的错误信息的显示方法及装置