[发明专利]语义增强型场景文本识别方法及装置在审
申请号: | 202110653956.1 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113591546A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 崔萌萌;王威;王亮 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 增强 场景 文本 识别 方法 装置 | ||
本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
技术领域
本发明涉及计算机技术领域,尤其涉及一种语义增强型场景文本识别方法及装置。
背景技术
与高质量文档图像的传统光学字符识别(OCR)相比,自然场景文本识别能在更宽泛的领域中应用,例如照片分析、车牌识别,图片广告过滤,场景理解,商品识别,街景定位,票据识别等。由于场景文本的文字形式及背景较复杂,从而导致识别难度较高,主要难点包括:图片背景极为丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题;文本的布局可能存在扭曲、褶皱、换向等问题;其中的文字也可能字体多样、字号字重颜色不一的问题。
传统的场景文本识别主要利用卷积神经网络提取的视觉信息或循环神经网络提取的上下文信息进行文本识别,然而该方法中的编码器提取的是单一化特征,会造成信息损失。对于文本形态多样、背景复杂的字符图像数据,常规算法解码器所采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐,限制了准确率的提升,而为了提升准确率而采用的多层解码器则会极大增加模型参数量以及计算复杂度。
发明内容
本发明提供一种语义增强型场景文本识别方法及装置,用以解决现有技术中场景文本识别精度较低且复杂度较高的缺陷。
本发明提供一种语义增强型场景文本识别方法,包括:
确定待识别的场景文本图像;
将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
根据本发明提供的一种语义增强型场景文本识别方法,所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
根据本发明提供的一种语义增强型场景文本识别方法,所述将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果,包括:
将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达;
将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器输出的所述场景文本识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653956.1/2.html,转载请声明来源钻瓜专利网。