[发明专利]一种零售终端文字识别方法及系统在审
| 申请号: | 202210630151.X | 申请日: | 2022-06-06 |
| 公开(公告)号: | CN115035531A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 韦泰丞;祝丽丽;陈浩;白森;刘雁兵;朱皓然 | 申请(专利权)人: | 广西中烟工业有限责任公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/24;G06V10/80 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李红团 |
| 地址: | 530001 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 零售 终端 文字 识别 方法 系统 | ||
1.一种零售终端文字识别方法,其特征在于,包括:
获取待识别的零售终端店招图片和许可证图片,对获取的图片进行文字检测,输出包含多个待识别文字字符的文字区域图像,作为目标检测图像;
构建基于语义关联的文字识别模型并进行训练,所述文字识别模型包括依次连接的主干网络、并行注意力对齐模块、全局语义关联模块以及视觉-语义跨模态融合模块;所述主干网络用于提取目标检测图像的通用视觉特征,并行注意力对齐模块用于解码通用视觉特征中的所有字符,得到解码后的视觉识别特征,全局语义关联模块用于对得到的视觉识别特征利用语义上下建模,得到相应的语义特征,视觉-语义跨模态融合模块用于将视觉识别特征以及语义特征进行融合,得到视觉语义融合特征;
将目标检测图像输入训练好的文字识别模型中进行识别,输出识别结果。
2.根据权利要求1所述的零售终端文字识别方法,其特征在于,所述主干网络包括卷积神经网络和连接于卷积神经网络之后的空间自注意力模块,其中:
卷积神经网络,用于提取目标检测图像的通用特征;
空间自注意力模块,用于挖掘特征之间的关联,最终得到目标检测图像的通用视觉特征G:
其中,空间自注意力模块的输入q=k=v=F,F∈RC×H×W为卷积神经网络的输出特征,dq、dk、dv分别代表输出特征的维度,n=H×W代表输出特征长度,C表示输出特征图的通道数,H表示输出特征图的高,W表示输出特征的宽,q,k,v分别为查询向量、键向量、值向量、Q、K、V分别为q,k,v对应的矩阵。
3.根据权利要求2所述的零售终端文字识别方法,其特征在于,所述卷积神经网络采用残差神经网络,残差神经网络的每个残差模块单元包含一个3×3的卷积核和一个1×1的卷积核,其中:
3×3的卷积核,用于收集上下文信息,扩大网络的感受野;
1×1的卷积核,用于减少参数量并增进特征表达;
所述残差神经网络分为6个阶段进行下采样,阶段0是原始等比例下采样,阶段1和阶段2同时纵向和横向下采样,阶段3至阶段5采用纵向下采样。
4.根据权利要求2所述的零售终端文字识别方法,其特征在于,所述并行注意力对齐模块采用并行注意力机制,一次前向过程中解码所述通用视觉特征里的所有待识别字符,得到各个待识别文字字符解码后的视觉识别特征,且其解码公式为:
其中K=V=G,为图像的视觉特征,Qd为次序编码,形式上为一个自学习矩阵FV为各个字符的视觉识别特征。
5.根据权利要求1所述的零售终端文字识别方法,其特征在于,所述全局语义关联模块包括若干个依次相连的transformer模块,其将输入的视觉识别特征进行线性映射,通过transformer模块挖掘文字序列的文字间语义,建立字符串的语言逻辑关系,利用语义上下建模,得到相应的语义特征。
6.根据权利要求4所述的零售终端文字识别方法,其特征在于,所述视觉-语义融合模块通过门控单元调整视觉识别特征和语义特征的比重后所得到的融合特征D的表达式为:
D=σFV+(1-σ)FS (3)
σ=Wg([FV;FS]) (4)
其中,σ为门控单元,Wg为自学习向量,FS为语义特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西中烟工业有限责任公司,未经广西中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210630151.X/1.html,转载请声明来源钻瓜专利网。





