[发明专利]文本定长纠错方法、装置、设备及存储介质在审
申请号: | 202111149204.8 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113887201A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 周柱君 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 定长 纠错 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术,揭露一种文本定长纠错方法,包括:对数据增强后的文本集进行向量化,得到训练文本向量并输入至深度纠错模型中进行错误探查,得到拼写是否正确的输出结果,根据输出结果对训练文本向量进行软遮罩连接,得到嵌入数据,对嵌入数据进行纠错得到纠错结果,根据纠错结果计算所得的深度纠错模型的交叉熵损失值调整深度纠错模型的模型参数,输出标准深度纠错模型,将待纠错数文本输入至标准深度纠错模型中,基于预设的多轮纠错机制得到纠错后的正确文本。此外,本发明还涉及区块链技术,纠错结果可存储于区块链的节点。本发明还提出一种文本定长纠错装置、电子设备以及存储介质。本发明可以解决文本定长纠错的准确度较低的问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本定长纠错方法、装置、电子设备及计算机可读存储介质。
背景技术
在银行的不同业务活动中,有许多业务场景涉及到文字记录:如人工坐席会以文字录入的形式记录客户的问题咨询、客户的服务过程概述、客户的投诉概要等内容,而这些记录的文字中可能会存在因人工疏忽而误录入错别字的情况。这时就需要使用文本纠错技术来找出录入文本中的错别字,并依照上下文内容对错别字进行纠正。
现有的文本纠错方法通常利用一种基于预训练语言模型进行文本定长纠错,使用先遮罩再预测的方式对文本中的每个单字进行纠错,这种纠错方式需要顺序进行,且很难一次性并行纠错,因此会造成纠错的误差,导致文本纠错的准确度较低。
发明内容
本发明提供一种文本定长纠错方法、装置及计算机可读存储介质,其主要目的在于解决文本定长纠错的准确度较低的问题。
为实现上述目的,本发明提供的一种文本定长纠错方法,包括:
获取原始文本集,对所述原始文本集进行数据增强处理,得到训练文本集;
对所述训练文本集进行向量化处理,得到训练文本向量;
将所述训练文本向量输入至预设的深度纠错模型的错误探查网络中进行错误探查,得到拼写是否正确的输出结果;
根据所述拼写是否正确的输出结果,对所述训练文本向量进行软遮罩连接处理,得到嵌入数据;
利用所述深度纠错模型的纠错网络对所述嵌入数据进行纠错处理,得到纠错结果;
根据所述纠错结果计算所述深度纠错模型的交叉熵损失值,并根据所述交叉熵损失值调整所述深度纠错模型的模型参数,输出标准深度纠错模型;
将预获取的待纠错数文本输入至所述标准深度纠错模型中,基于预设的多轮纠错机制,得到纠错后的正确文本。
可选地,所述对所述原始文本集进行数据增强处理,得到训练文本集,包括:
获取预设的语料库及所述语料库中语料对应的词频;
从所述原始文本集中随机选择多个被替换字;
根据所述词频,利用预设的混淆概率计算公式计算预设的混淆字典中的混淆字与所述被替换字之间的混淆概率值;
根据所述混淆概率值对所述混淆字进行排序,并选择所述混淆概率值最大的混淆字对所述被替换字进行替换,得到训练文本集。
可选地,所述对所述训练文本集进行向量化处理,得到训练文本向量,包括:
获取所述训练文本集中训练文本的每一个字符的字嵌入向量、位置嵌入向量和段嵌入向量;
对所述字嵌入向量、所述位置嵌入向量和所述段嵌入向量进行求和处理,得到训练文本向量。
可选地,所述将所述训练文本向量输入至预设的深度纠错模型的错误探查网络中进行错误探查,得到拼写是否正确的输出结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111149204.8/2.html,转载请声明来源钻瓜专利网。