[发明专利]一种中文拼写纠错方法在审
申请号: | 202310311640.3 | 申请日: | 2023-03-28 |
公开(公告)号: | CN116306597A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 付智超;徐翔;钱程 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/211;G06F40/284;G06F18/241;G06F40/44 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 拼写 纠错 方法 | ||
本发明公开了一种中文拼写纠错方法,本发明通过将原始数据集中的常用词和常用字分别替换为易混词和易混字以增加训练难度,从而增加模型预测的准确性;同时本发明提供的纠错模型是在Macbert模型的基础上融合了字形和拼音信息进行优化,得到较为准确的检错分数从而较为准确的获得纠正字;当纠错模型无法针对句子的某个特定位置得到合适的纠正字时,本发明引入了二分类模型,将该特定位置的每个候选字进行预测以得到纠正字,从而能够较为准确、高效的对中文拼写进行纠错。
技术领域
本发明属于自然语言处理领域,具体涉及一种中文拼写纠错方法。
背景技术
中文文本纠错(Chinese Text Correction,CTC)属于自然语言处理(NaturalLanguage Processing,NLP)的基本任务,中文文本纠错包含两种任务,一种是中文拼写纠错(Chinese Spelling Check,CSC),另一种是语法纠错(Grammatical Error Correction,GEC)。
中文拼写纠错对中文文本中的拼写错误(错字,别字)进行检测和纠正。一般使用对齐语料库,对齐语料是指训练数据中,错误的句子和正确的句子长度相等。中文语法纠错对中文文本中的拼写、标点、语法等类型错误进行纠正。可以使用非对齐语料库。可更正多字、少字、乱序等语法类错误。
目前中文拼写纠错分为工业界和学术界的做法。
工业界以百度的中文文本纠错为例(目前没有开源,只有介绍流程,提供了收费接口),百度的中文文本纠错的核心技术为:
1)语言知识:词法、句法的应用,结合语言模型。传统语言模型利用前面一串词语预测下一个词,百度使用受限语言模型,受限词表基于原词生成,能够利用错字的部分信息,如拼音、字形等。
2)知识计算:基于Memory/IR知识辅助,包含关联知识和文本理解,解决低频领域的知识泛化问题。
百度中文纠错的特点:
1)纠正多种类型的错误,包含拼写纠错和语法纠错。
2)支持文本、语音等不同输入形态。
3)快速灵活,可配置的深度定制。
但百度文本纠错每一步使用的技术很多,所用到的语料数据量很大,个人很难实现。
学术界和工业界的区别在于工业界一般是三步策略(PipeLine模式),学术界重点放在模型结构上,主要用到的是基于Transformer结构的模型及其衍生模型,如Bert、Roberta、Electra等,同时引入不同角度的注意力机制、文本不同模态的输入,比如语音、图像等,属于端到端的模型(end-to-end)。学术界主要关注的是语义、语法上的错误,对于知识性错误则在工业界关注更多。学术界重点在提出不同的模型,有的论文使用预训练+微调(Finetune)的策略,使用大规模语料库进行预训练(上百万个样本),成本依然很大。
发明内容
本发明提供了一种中文拼写纠错方法,该方法能够达到较高的纠错水准的同时,该方法所使用的模型较为容易获得,所需语料库的容量较低。
一种中文拼写纠错方法,包括:
获得原始数据集,根据易混字替换概率将原始数据集中的常用汉字替换成对应的易混字得到第一训练样本子集,根据易混词替换概率将原始数据集中的常用词中的一个字替换成对应的易混词中的一个字得到第二训练样本子集,第一训练样本子集和第二训练样本子集构建训练样本集,每个训练样本包括原始句子和对应的正确句子;
获得纠错模型,所述纠错模型包括Macbert模块、字形编码和拼音编码模块和输出融合模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310311640.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小区智能型充电桩
- 下一篇:一种光学消杀腔