[发明专利]一种特定领域文本纠错方法、存储介质和装置在审
申请号: | 202211342299.X | 申请日: | 2022-10-31 |
公开(公告)号: | CN115688703A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 邓华;武侠;崔豪驿;鲍娌娜;李荣生;邓养吾;齐一飞;杨阳;刘伟;苗德雨;刘抗抗 | 申请(专利权)人: | 国网山东省电力公司烟台供电公司;国家电网有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/289;G06F40/211;G06F40/30;G06N20/00 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 张芳 |
地址: | 264001 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特定 领域 文本 纠错 方法 存储 介质 装置 | ||
本发明公开一种特定领域文本的纠错方法、存储介质和装置,其中方法包括:构造特定领域训练用数据集;使用通用领域数据集对文本生成模型进行第一阶段训练;对文本生成模型通过加入词性监督信号进行改造,然后利用特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练;对训练后的文本生成模型进行句子级纠错,并解码生成矫正后的文本。本发明无需人工标注标签,可以根据现有数据自动生成标签;能够继承通用领域常用的语法特点与先验知识;能够针对特定领域特别是电力领域做出适配性纠正,能够识别特定领域内的特有名词与常用术语;能够结合句子的词性组合特征来进行纠错。
技术领域
本发明涉及文本纠错领域,主要针对一种特定领域尤其是电力领域新闻文本的纠错方法、存储介质和装置。
背景技术
中文文本纠错常见错误类型分为音似、形似、多字、漏字、乱序、语法错误六大类型,然而在实际任务场景中,这些问题并不一定全都存在,比如输入法或是语音识别校对会主要关注音似错误,OCR校对则会关注形似错误,而搜索引擎则关注所有错误类型。本文则主要关注电力新闻领域内常见的多字漏字情况进行研究,而关于多字漏字的研究方法也较少,故具有一定挑战性。
文本纠错方法分为基于判别式模型和基于生成式模型两大类,其中基于判别式模型主要是通过对TOKEN进行判别,是否需要进行删除、添加或修改来完成纠错工作。在判别式模型中,MacBERT模型在原生的BERT上进行了修改,追加了一个全连接层作为错误检测模块,训练时用错误检测模块与错误修正模块的损失加权得到最终的损失,不过该研究主要针对对齐类错误修正,而无法考虑多字漏字情况。基于ERNIE的模型CSC提出了结合拼音特征的softmask策略,该工作发现拼音特征能够显著提升拼写错误类型纠正效果,却没有考虑到词性信息对整句语法的帮助,而且该方法同样只能针对对齐类错误纠正。
在生成式模型中,bart预训练模型,直接生成纠正后的句子,生成式模型结构更加简化的同时效果也有提升。Seq2edit模型而则是生成了动作序列,去对原输入进行操作,以此来实现非对齐类错误的修正,但这种方法同样忽视了词性的作用。在最近,由于T5在各大NLP任务上展现出优异表现,同样被使用到了文本纠错领域,并取得了目前最好的性能。
目前市面上,百度腾讯京东都有相关文本纠错产品,但是由于电网领域尤其特别,如果不针对性调整,很难达到其效果,如还有部分开源产品,中文单词自动纠错Cn_Speck_Checker和Autocheckerautocorrecter for chinese等,目前相关算法在各种自测数据集中表现效果尚且一般,用在非对齐类错误矫正上更是难以作为。
发明内容
为了克服上述现有技术中的问题,本发明提供一种特定领域文本纠错方法、存储介质和装置,优化纠错模型,提高检错检漏能力。
本发明第一方面,提供一种特定领域文本纠错方法,包括以下步骤:
S1、构造特定领域训练用数据集;
S2、使用通用领域数据集对文本生成模型进行第一阶段训练;
S3、对所述文本生成模型通过加入词性监督信号进行改造,然后利用所述特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练;
S4、对训练后的文本生成模型进行句子级纠错,并解码生成矫正后的文本。
进一步的,步骤S1中所述构造特定领域训练用数据集具体包括:
S11、对训练样本进行预处理,包括删除重复数据和特殊符号;
S12、对训练样本按照特定标点符号进行分句;
S13、根据分句后的句子构造出有错误的句子,作为训练用数据集。
更进一步的,步骤S13所述根据分句后的句子构造出有错误的句子具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司烟台供电公司;国家电网有限公司,未经国网山东省电力公司烟台供电公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211342299.X/2.html,转载请声明来源钻瓜专利网。