[发明专利]语义增强型场景文本识别方法及装置在审
申请号: | 202110653956.1 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113591546A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 崔萌萌;王威;王亮 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 增强 场景 文本 识别 方法 装置 | ||
1.一种语义增强型场景文本识别方法,其特征在于,包括:
确定待识别的场景文本图像;
将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
2.根据权利要求1所述的语义增强型场景文本识别方法,其特征在于,所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
3.根据权利要求1所述的语义增强型场景文本识别方法,其特征在于,所述将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果,包括:
将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达;
将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器出的所述场景文本识别结果。
4.根据权利要求3所述的语义增强型场景文本识别方法,其特征在于,所述将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达,包括:
将所述场景文本图像输入至所述编码器的视觉特征提取层,得到所述视觉特征提取层输出的所述场景文本图的视觉特征图;
将所述视觉特征图输入至所述编码器的上下文提取层,得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列;
将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层,由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达;
其中,所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络,所述上下文特征序列是基于如下过程确定的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率进行特征丢弃,将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接,得到所述上下文特征序列。
5.根据权利要求4所述的语义增强型场景文本识别方法,其特征在于,所述对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达,包括:
对所述上下文特征序列沿垂直维度扩展,直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同;
将维度扩展后的上下文特征序列与所述视觉特征图相加,并添加所述视觉特征图中各像素的位置编码,得到所述叠加层输出的所述增强型特征表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653956.1/1.html,转载请声明来源钻瓜专利网。