[发明专利]基于自注意力机制的文本识别方法有效

专利信息
申请号: 202110268438.8 申请日: 2021-03-12
公开(公告)号: CN113065550B 公开(公告)日: 2022-11-11
发明(设计)人: 刘义江;陈蕾;侯栋梁;池建昆;范辉;阎鹏飞;魏明磊;李云超;姜琳琳;辛锐;陈曦;杨青;沈静文;吴彦巧;姜敬;檀小亚;师孜晗 申请(专利权)人: 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司
主分类号: G06V20/62 分类号: G06V20/62;G06V30/146;G06V10/82;G06N3/04
代理公司: 石家庄新世纪专利商标事务所有限公司 13100 代理人: 董金国;黄敬霞
地址: 050022 *** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 机制 文本 识别 方法
【说明书】:

发明属于于场景文本识别领域,涉及一种基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络算法指令实现,其包括:接收包含文本内容的场景图片;使用卷积神经网络其第一卷积模块提取场景图片的第一特征图M,其自注意力机制模块将第一特征图M编码为第二特征图Matt,其第二卷积模块提取第二特征图Matt通道方向的一维特征向量F;使用卷积神经网络其第三卷积模块根据第二特征图Matt和一维特征向量F获得场景图片的文本内容识别结果;第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对第二特征图Matt解码并设于循环卷积模块中循环单元输出的二维注意力机制模块。该方法能够对弯曲、倾斜等不规则文本实现较好的识别。

技术领域

本发明属于场景文本识别领域,具体涉及一种采用自注意力机制编解码结构的文本识别方法。

背景技术

视觉意义的文本作为文字的物理载体,能用来保存和传递信息。文本识别技术是计算机视觉领域的一个重要挑战,它的任务是在自然图像中自动检测和识别文本信息。在文本检测和识别技术的帮助下,可以解码出视觉影像中的重要语义信息。由于场景文本识别具有重大的应用价值,近年来在工业界和学术界受到了越来越多的关注。本领域技术人员已经能针对背景简单的水平文本设计识别系统并获得较好的识别效果,而在真实场景中,由于场景中光照、遮挡以拍照设备、拍照角度等因素以及文本本身弯曲、倾斜、艺术字等实际因素影响,场景文本识别,特别是不规则场景文本识别存在技术困难。

针对真实场景视觉影像中不规则文本的识别问题,现有技术的场景文本识别技术在解码阶段采用基于注意力机制的解码器,从而能够自动关注到图片中的字符区域。这些方法能够较好的处理不规则文本识别的问题,但是由于场景图片过于嘈杂,经常会出现“注意力漂移”等问题,从而降低了文本识别的准确率。

发明内容

本发明目的在于提供一种基于自注意力机制的场景文本识别方法,该方法能够对检测阶段提供的文本目标实现较好的识别,特别是处理弯曲、倾斜等不规则文本的识别问题。

本发明提供的技术方案是基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络的算法指令实现,该方法包括:接收包含文本内容的场景图片;使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M,其自注意力机制模块将所述第一特征图M编码为第二特征图Matt,其第二卷积模块提取所述第二特征图Matt通道方向的一维特征向量F;使用所述卷积神经网络其第三卷积模块根据所述第二特征图Matt和一维特征向量F获得所述场景图片的文本内容识别结果;所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图Matt解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块。

一个改进在于,所述第一卷积模块的主干部分采用ResNet的卷积结构。进一步的改进在于,所述第一卷积模块的主干部分采用ResNet34的卷积结构。ResNet34采用了一种深度适中较为均衡的网络结构,其配合本发明构思中其他网络结构的配置,被验证可以获得更好的成本控制。再进一步的改进在于,所述ResNet34最后一层卷积步长被设为1,以便获得尺寸更大的第一特征图。

另一个改进在于,所述第二卷积模块包含多层Bottleneck结构。

另一个改进在于,所述第三卷积模块的循环卷积网络为LSTM网络。其进一步的改进在于,所述第三卷积模块的二维注意力机制模块;所述二维注意力机制模块设置于LSTM每个循环单元的输出中,用于根据所述第二特征图Matt和上一步获得的隐层状态对各循环单元输出实施解码。优选的,所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110268438.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top