[发明专利]一种特定领域文本纠错方法、存储介质和装置在审
申请号: | 202211342299.X | 申请日: | 2022-10-31 |
公开(公告)号: | CN115688703A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 邓华;武侠;崔豪驿;鲍娌娜;李荣生;邓养吾;齐一飞;杨阳;刘伟;苗德雨;刘抗抗 | 申请(专利权)人: | 国网山东省电力公司烟台供电公司;国家电网有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/289;G06F40/211;G06F40/30;G06N20/00 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 张芳 |
地址: | 264001 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特定 领域 文本 纠错 方法 存储 介质 装置 | ||
1.一种特定领域文本纠错方法,其特征在于,包括以下步骤,
S1、构造特定领域训练用数据集;
S2、使用通用领域数据集对文本生成模型进行第一阶段训练;
S3、对所述文本生成模型通过加入词性监督信号进行改造,然后利用所述特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练;
S4、对训练后的文本生成模型进行句子级纠错,并解码生成矫正后的文本。
2.根据权利要求1所述的特定领域文本纠错方法,其特征在于,步骤S1中所述构造特定领域训练用数据集具体包括:
S11、对训练样本进行预处理,包括删除重复数据和特殊符号;
S12、对训练样本按照特定标点符号进行分句;
S13、根据分句后的句子构造出有错误的句子,作为训练用数据集。
3.根据权利要求2所述的特定领域文本纠错方法,其特征在于,步骤S13所述根据分句后的句子构造出有错误的句子具体包括:
S131、对分句后的句子进行分词;
S132、根据分词长度设定增字和减字的次数;
S133、进行增字操作:两个分词之间作为一个插入位置,选择前一个词的尾部或后一个词的首部作为插入样本,所述插入样本的长度最小为1,最大不超过所在词的长度;重复进行增字操作,直到达到预设次数;
S134、进行减字操作:在当前句子中随机选择一候选词,删除所述候选词的前一部分或后一部分,删减长度最小为1,最大不超过所述候选词的长度;重复进行减字操作,直到达到预设次数;
S135、得到有错误的句子组成的数据集,用于训练文本生成模型。
4.根据权利要求1所述的特定领域文本纠错方法,其特征在于,步骤S2具体包括:
S21、调用通用领域的文本纠错数据集,提取原-目标句子对;
S22、针对每对句子对计算原句与目标句的最小编辑距离和编辑路径;
S23、保留最短编辑路径中包含了增字与减字操作的句子对;
S24、将步骤S23得到的句子对输入文本生成模型,实现对所述文本生成模型的微调。
5.根据权利要求1所述的特定领域文本纠错方法,其特征在于,步骤S3具体包括,
S31、将特定领域训练用数据集中的句子进行分词;
S32、对分词后的句子进行词性标注,得到词性标注序列;
S33、将词性标注的句子输入文本生成模型进行第二阶段训练,所述文本生成模型包括第一编码层和第二编码层,所述第一编码层用于将词性标注序列转化为POS语义表征,所述第二编码层用于将词性标签文本转化为TOKEN语义表征。
6.根据权利要求5所述的特定领域文本纠错方法,其特征在于,步骤S32中所述对分词后的句子进行词性标注由Ltp中文语言处理系统完成。
7.根据权利要求1所述的特定领域文本纠错方法,其特征在于,步骤S4具体包括:
S41、将待纠错的句子使用分词器进行分词;
S42、将分词后的句子进行词性标注,得到词性标注序列;
S43、将所述词性标注序列输入文本生成模型,经编码得到POS语义表征和TOKEN语义表征,将所述POS语义表征和所述TOKEN语义表征相加,输入解码层;
S44、在所述文本生成模型的解码层,使用束搜索策略进行解码,生成全局最优结果。
8.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司烟台供电公司;国家电网有限公司,未经国网山东省电力公司烟台供电公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211342299.X/1.html,转载请声明来源钻瓜专利网。