[发明专利]中文文本纠错及验证方法、装置、设备及存储介质有效

专利信息
申请号: 202210824618.4 申请日: 2022-07-13
公开(公告)号: CN115169330B 公开(公告)日: 2023-05-02
发明(设计)人: 舒畅;陈又新 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F40/211;G06F40/289
代理公司: 深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人: 高杰;于志光
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 文本 纠错 验证 方法 装置 设备 存储 介质
【说明书】:

发明涉及人工智能技术,揭露了一种中文文本纠错及验证方法,包括:对原始纠错训练文本集合中的文本标注模板文本,得到标准纠错训练文本集合,利用标准纠错训练文本集合对包括文本错误识别模型及文本纠错模型的双阶段纠错模型进行联合训练,得到标准纠错模型,利用标准纠错模型对待纠错文本进行纠错,得到已纠错文本并构建纠错对,对纠错对进行纠错类型识别,基于纠错类型,利用编辑距离成本法对所述纠错对进行纠错验证,得到纠错验证结果。此外,本发明还涉及区块链技术,所述纠错验证结果可存储在区块链的节点中。本发明还提出一种中文文本纠错及验证装置、电子设备以及可读存储介质。本发明可以解决中文纠错效率较低的问题。

技术领域

本发明涉及人工智能技术领域,尤其涉及一种中文文本纠错及验证方法、装置、电子设备及可读存储介质。

背景技术

中文纠错是人工智能中的重要应用,业内常用的中文纠错方法大多是遍历每一个句子进行中文纠错,主要有如下两种方法:1、基于编辑距离算法,计算编辑成本,比如增加、删除、替换等编辑值,与正确的句子库进行遍历比对,从而完成纠错过程。但是这种方法较为机械,需要预先设定好庞大正确的句子库,且都是使用句子级别,输入整个句子进行编辑距离计算,由于编辑距离算法对句子中正确的部分也计算了编辑距离成本,计算成本很高,导致纠错过程耗时很长,其次对未登录的句子或者词不能纠错,纠错效率较低。2、利用语言模型进行中文纠错,例如利用编码器和解码器结构的模型进行纠错,但是在解码的过程中必须按照顺序一个一个的解码获得纠错后的句子,效率比较低;或者使用单一BERT的语言模型来做文本纠错,但是仍需要遍历句子中所有单个的词或者多个连续组合的词来mask,让模型对mask的位置进行猜测从而达到纠错效果,效率非常低。

发明内容

本发明提供一种中文文本纠错及验证方法、装置、电子设备及可读存储介质,其主要目的在于解决中文纠错效率较低的问题。

为实现上述目的,本发明提供的一种中文文本纠错及验证方法,包括:

获取原始纠错训练文本集合,根据所述原始纠错训练文本集合中文本的正确性标注模板文本,得到标准纠错训练文本集合;

构建包括文本错误识别模型及文本纠错模型的双阶段纠错模型;

利用所述标准纠错训练文本集合对所述文本错误识别模型及文本纠错模型进行联合训练,得到标准纠错模型;

获取待纠错文本,利用所述标准纠错模型对所述待纠错文本进行纠错,得到已纠错文本;

基于所述已纠错文本构建纠错对,利用预设的分类模型对所述纠错对进行纠错类型识别,得到纠错类型;

基于所述纠错类型,利用编辑距离成本法对所述纠错对进行纠错验证,得到纠错验证结果。

可选地,所述构建包括文本错误识别模型及文本纠错模型的双阶段纠错模型,包括:

获取第一BERT模型,在所述第一BERT模型后拼接全连接层及输出层,得到所述文本错误识别模型;

获取第二BERT模型并作为所述文本纠错模型,对所述文本错误识别模型机所述文本纠错模型进行串联得到所述双阶段纠错模型。

可选地,所述利用所述标准纠错训练文本集合对所述文本错误识别模型及文本纠错模型进行联合训练,得到标准纠错模型,包括:

利用所述标准纠错训练文本集合对所述文本错误识别模型进行迭代训练;

利用训练完成的文本错误识别模型输出所述标准纠错训练文本集合中句子对应的标准字向量;

对所述标准字向量进行复制组合处理,并基于复制后的组合字向量及预设的损失函数对所述文本纠错模型进行注意力训练;

汇总训练完成的文本错误识别模型及文本纠错模型得到所述双阶段纠错模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210824618.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top