[发明专利]纠错方法、模型训练方法、计算机介质以及设备在审
| 申请号: | 202210412721.8 | 申请日: | 2022-04-19 |
| 公开(公告)号: | CN115130463A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 郑岩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 熊金凤 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 纠错 方法 模型 训练 计算机 介质 以及 设备 | ||
本申请公开一种纠错方法、模型训练方法、计算机介质以及设备,可应用于人工智能、计算机视觉、光学字符识别等各种场景。纠错方法包括:获取包括多个字符的待纠错文本序列;针对多个字符中的各字符,根据字符与预设的数据库信息确定字符对应的特征向量组,特征向量组包括多种特征向量:字形特征向量、字音特征向量以及字符特征向量;将字符对应的多种特征向量进行特征融合处理,以确定字符对应的融合向量;根据融合向量确定字符对应的一组参数向量,得到多个字符对应的多组参数向量;基于目标纠错模型对多组参数向量进行纠错处理,以确定待纠错文本序列对应的纠错结果,从文字的多个维度对文本进行分析与纠错,以提高纠错的准确度。
技术领域
本申请涉及人工智能技术领域,具体涉及一种纠错方法、模型训练方法、计算机介质以及设备。
背景技术
相关技术中,对文本的纠错方法,一般依赖于需要错误文本及其标注文本作为训练数据的纠错模型进行纠错,而需要错误文本及其标注文本作为训练数据的纠错模型获取数据的成本较高,以及需要人工标注,较浪费时间,纠错模型训练的效率较低,并且,相关技术中,一般仅从字符层面对文本进行纠错,纠错的准确度较低。
发明内容
本申请实施例提供一种纠错方法、模型训练方法、计算机介质以及设备,可以从文本的字音、字形,以及字符多个维度对文本进行分析与纠错,提高了纠错的准确度。
一方面,提供一种纠错方法,所述方法包括:获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;将所述第一字符对应的多种第一特征向量进行特征融合处理,以确定所述第一字符对应的第一融合向量;根据所述第一融合向量确定所述第一字符对应的一组第一参数向量,得到所述多个第一字符对应的多组第一参数向量;基于目标纠错模型对所述多组第一参数向量进行纠错处理,以确定所述待纠错文本序列对应的纠错结果。
另一方面,提供一种模型训练方法,所述方法包括:获取样本文本序列,所述样本文本序列包括多个样本字符;确定所述样本文本序列对应的多个特征序列:字形特征序列、字音特征序列,以及字符特征序列;其中,所述字形特征序列包括每个所述样本字符的第二字形特征信息,所述字音特征序列包括每个所述样本字符的第二字音特征信息,以及所述字符特征序列包括每个所述样本字符的第二字符特征信息;针对所述多个特征序列中的每个特征序列进行掩码处理,得到多个掩码序列,其中,每个特征序列至少对应一个掩码序列,每个所述掩码序列包括多个中间特征信息;针对所述多个掩码序列中的各掩码序列,将所述掩码序列输入初始模型,得到所述掩码序列中掩码位置对应的预测特征信息,其中,所述初始模型包括初始特征提取模型、初始特征融合模型、初始参数生成模型和初始纠错模型,所述初始特征提取模型用于确定所述掩码序列中每个中间特征信息对应的第二特征向量组,所述第二特征向量组包括多种第二特征向量:第二字形特征向量、第二字音特征向量以及第二字符特征向量;所述初始特征融合模型用于根据所述第二特征向量组确定所述掩码序列中每个中间特征信息对应的第二融合向量,所述初始参数生成模型用于根据所述第二融合向量确定所述初始纠错模型的输入信息,所述初始纠错模型用于根据所述输入信息确定所述掩码序列中掩码位置对应的预测特征信息;根据所述多个掩码序列中各掩码序列中的掩码位置对应的预测特征信息,与所述多个掩码序列中各掩码序列中的掩码位置对应的第二特征信息,对所述初始模型进行训练,得到目标模型,所述目标模型包括:目标特征提取模型、目标特征融合模型、目标参数生成模型和目标纠错模型。
另一方面,还提供一种纠错设备,所述纠错设备包括:
获取单元,用于获取待纠错文本序列,所述待纠错文本序列包括多个第一字符;
第一确定单元,用于针对所述多个第一字符中的各第一字符,根据所述第一字符与预设的第一数据库信息确定所述第一字符对应的第一特征向量组,所述第一特征向量组包括多种第一特征向量:第一字形特征向量、第一字音特征向量以及第一字符特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210412721.8/2.html,转载请声明来源钻瓜专利网。





