[发明专利]基于自注意力机制的文本识别方法有效
申请号: | 202110268438.8 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113065550B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 刘义江;陈蕾;侯栋梁;池建昆;范辉;阎鹏飞;魏明磊;李云超;姜琳琳;辛锐;陈曦;杨青;沈静文;吴彦巧;姜敬;檀小亚;师孜晗 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V10/82;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 董金国;黄敬霞 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 文本 识别 方法 | ||
1.一种基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络算法指令实现,其包括:
接收包含文本内容的场景图片;使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M,其自注意力机制模块将所述第一特征图M编码为第二特征图Matt,其第二卷积模块提取所述第二特征图Matt通道方向的一维特征向量F;使用所述卷积神经网络其第三卷积模块根据所述第二特征图Matt和一维特征向量F获得所述场景图片的文本内容识别结果;所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图Matt解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块;
在所述第一卷积模块的主干部分的每一个layer的最后一个block上添加所述自注意力机制模块的注意力的监督信号;
所述自注意力机制模块包含Non-LocalBlock,所述Non-LocalBlock调用的自注意力算法为整体卷积神经网络的一个泛化且可直接嵌入到当前网络的非局部操作算子,用于捕获所述第一特征图M中一维特征信号在时间、空间及时空中的长范围依赖,并将该长范围依赖编码于所述第二特征图Matt。
2.根据权利要求1所述的文本识别方法,其特征在于,
所述第一卷积模块的主干部分采用ResNet的卷积结构。
3.根据权利要求2所述的文本识别方法,其特征在于,
所述第一卷积模块的主干部分采用ResNet34的卷积结构。
4.根据权利要求3所述的文本识别方法,其特征在于,
所述ResNet34最后一层卷积步长被设为1。
5.根据权利要求1所述的文本识别方法,其特征在于,
所述第二卷积模块包含多层Bottleneck结构。
6.根据权利要求1所述的文本识别方法,其特征在于,
所述第三卷积模块的循环卷积网络为LSTM网络。
7.根据权利要求6所述的文本识别方法,其特征在于:
所述第三卷积模块的二维注意力机制模块;所述二维注意力机制模块设置于LSTM每个循环单元的输出中,用于根据所述第二特征图Matt和上一步获得的隐层状态对各循环单元输出实施解码。
8.根据权利要求7所述的文本识别方法,其特征在于:
所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。
9.根据权利要求1所述的文本识别方法,其特征在于:
对于所述卷积神经网络,在对其进行训练时,所述循环神经网络的输入为真实标签经过线性变换得到的一个one-hot的向量;在对其进行测试时,由于并不知道真实标签信息,所述卷积神经网络配置为将上一个时刻循环神经网络的输出作为该时刻的输入。
10.根据权利要求9所述的文本识别方法,其特征在于:
所述卷积神经网络只有在训练阶段配置反向传播。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110268438.8/1.html,转载请声明来源钻瓜专利网。