[发明专利]语义增强型场景文本识别方法及装置在审

申请号：	202110653956.1	申请日：	2021-06-11
公开（公告）号：	CN113591546A	公开（公告）日：	2021-11-02
发明（设计）人：	崔萌萌;王威;王亮	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	陈新生
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义增强场景文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语义增强型场景文本识别方法，其特征在于，包括：

确定待识别的场景文本图像；

将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；

其中，所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；所述场景文本识别模型包括编码器和解码器；所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列，并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为所述解码器的循环神经网络的初始时刻输入，将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到所述场景文本对应字符的识别结果。同时，将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到所述场景文本的识别结果。

2.根据权利要求1所述的语义增强型场景文本识别方法，其特征在于，所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量，所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。

3.根据权利要求1所述的语义增强型场景文本识别方法，其特征在于，所述将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果，包括：

将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达；

将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器出的所述场景文本识别结果。

4.根据权利要求3所述的语义增强型场景文本识别方法，其特征在于，所述将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达，包括：

将所述场景文本图像输入至所述编码器的视觉特征提取层，得到所述视觉特征提取层输出的所述场景文本图的视觉特征图；

将所述视觉特征图输入至所述编码器的上下文提取层，得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列；

将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层，由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达；

其中，所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络，所述上下文特征序列是基于如下过程确定的：对所述长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率进行特征丢弃，将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接，得到所述上下文特征序列。

5.根据权利要求4所述的语义增强型场景文本识别方法，其特征在于，所述对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达，包括：

对所述上下文特征序列沿垂直维度扩展，直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同；

将维度扩展后的上下文特征序列与所述视觉特征图相加，并添加所述视觉特征图中各像素的位置编码，得到所述叠加层输出的所述增强型特征表达。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110653956.1/1.html，转载请声明来源钻瓜专利网。

上一篇：菜心BraALA3和BraENT1基因家族在调控丙环唑的吸收累积中的应用
下一篇：升降柱和控制它的高度的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语义增强型场景文本识别方法及装置在审

专利文献下载