[发明专利]模型训练和文本识别方法、装置以及存储介质在审

专利信息
申请号: 202210138219.2 申请日: 2022-02-15
公开(公告)号: CN114495087A 公开(公告)日: 2022-05-13
发明(设计)人: 达铖;王鹏;姚聪 申请(专利权)人: 阿里巴巴(中国)有限公司
主分类号: G06V20/62 分类号: G06V20/62;G06V30/146;G06V10/422;G06V30/19;G06V10/80;G06K9/62
代理公司: 北京合智同创知识产权代理有限公司 11545 代理人: 李杰;杨雷
地址: 310051 浙江省杭州市滨江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模型 训练 文本 识别 方法 装置 以及 存储 介质
【说明书】:

发明实施例提供了一种模型训练和文本识别方法、装置以及存储介质。所述模型训练方法包括:获取目标图像的图像特征和文本特征;融合所述图像特征和文本特征,得到所述目标图像的图文特征;基于所述图文特征和所述文本特征的校正文本标签,对文本校正模型进行训练,所述文本校正模型用于对所述文本特征进行校正。在本发明实施例的方案中,图文特征中融合了图像特征和文本特征,使得融合特征中包括了更多的图像特征所表征的上下文语义因素,因此,基于融合特征,对文本特征校正,提高了文本校正模型的校正能力,进而提高了文本识别效果。

技术领域

本发明实施例涉及计算机技术领域,尤其涉及一种模型训练和文本识别方法、装置以及存储介质。

背景技术

自然场景中的文字识别(Scene text recognition,STR)是计算机视觉领域中存在已久且富有挑战性的研究方向之一。随着深度学习的兴起,基于卷积神经网络(CNN)的STR方法也获得了长足的发展,并得到了广泛应用,产生了巨大的研究价值和应用价值。

采用目前的STR算法进行文本识别,场景中的文字常呈现出模糊、字体多变、光照不均匀、局部遮挡、透视变化、图像分别率低和图像质量差等特点。

因此,现有的文本识别模型的文本识别效果较差。

发明内容

有鉴于此,本发明实施例提供一种模型训练和文本识别方法、装置以及存储介质,以至少部分解决上述问题。

根据本发明实施例的第一方面,提供了一种模型训练方法,包括:获取目标图像的图像特征和文本特征;融合所述图像特征和文本特征,得到所述目标图像的图文特征;基于所述图文特征和所述文本特征的校正文本标签,对文本校正模型进行训练,所述文本校正模型用于对所述文本特征进行校正。

在本发明的另一实现方式中,所述获取目标图像的图像特征和文本特征,包括:对目标图像进行特征提取,得到图像特征;对所述图像特征进行文本识别,得到文本特征。

在本发明的另一实现方式中,所述融合所述图像特征和文本特征,得到所述目标图像的图文特征,包括:将所述图像特征的维度表示和所述文本特征的维度表示进行拼接,得到所述目标图像的图文特征。

在本发明的另一实现方式中,所述文本校正模型包括上下文融合层和校正层,所述上下文融合层的输出连接到所述校正层的输入。所述基于所述图文特征和所述文本特征的校正文本标签,对文本校正模型进行训练,包括:基于所述图文特征作为所述上下文融合层的输入,并且基于所述校正文本标签作为所述校正层的输出,训练所述文本校正模型。所述上下文融合层用于对所述文本特征和所述图像特征进行上下文融合,所述校正层用于对上下文融合后的图文特征进行校正。

在本发明的另一实现方式中,所述校正层包括删除操作模块和插入操作模块,所述删除操作模块的输出连接到所述插入操作模块的输入,所述删除操作模块的输入作为所述校正层的输入,所述插入操作模块的输出作为所述校正层的输出。所述删除操作模块用于对上下文融合后的图文特征进行字符删除,所述插入操作模块用于对删除字符的图文特征进行字符插入。

在本发明的另一实现方式中,所述插入操作模块包括占位符添加模块和字符预测模块,所述删除操作模块的输入作为所述插入操作模块的输入,所述删除操作模块的输出连接到所述占位符添加模块的输入,所述占位符添加模块的输出作为所述插入操作模块的输出。所述占位符添加模块用于对删除字符的图文特征进行占位符添加,所述字符预测模块用于对添加占位符的图文特征中的占位符进行字符预测。

根据本发明实施例的第二方面,提供了一种文本识别方法,包括:对待识别图像进行特征提取,得到所述待识别图像的图像特征;融合所述图像特征和所述待识别图像的文本特征,得到所述待识别图像的图文特征;基于所述图文特征输入到文本校正模型,得到所述文本特征的校正文本,所述文本校正模型利用根据第一方面所述的方法训练得到。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210138219.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top