[发明专利]一种购物票据的光学字符识别方法在审
| 申请号: | 202110152434.3 | 申请日: | 2021-02-03 |
| 公开(公告)号: | CN114863457A | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 张海军;任狼 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/18;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市迪斯卓越专利代理事务所(普通合伙) 44443 | 代理人: | 闵华明;李小艳 |
| 地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 购物 票据 光学 字符 识别 方法 | ||
1.一种购物票据的光学字符识别的方法,其特征在于,该方法包括:
S1:使用文本检测模块对原始图像进行区域检测,获取票据文本图;所述原始图像包括票据背景和票据文本,所述票据文本图包括票据文字信息和票据条码信息;所述区域检测的方法包括,对原始图像进行数据增强,选用第一深度神经网络提取票据特征图,建立显著性物体检测和文本检测至少两个任务,所述显著性物体检测用于获取票据轮廓,所述文本检测用于获取所述票据轮廓内的票据文本图;
S2:使用文本识别模块对步骤S1获取的所述票据文本图进行文本识别,获取文本文字内容;所述文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器;所述基于Transformer的注意力模块包括,Transformer注意力权重和注意力机制;
其中,所述对票据文本图进行文本识别的方法包括:输入票据文本图,通过STN矫正网络矫正图像拍摄问题,所述图像拍摄问题包括扭曲、弯折和视角问题;选用第二深度神经网络将票据文本图压缩成第一序列,所述第一序列包括若干向量;发送所述第一序列至所述基于Transformer的注意力模块,经过学习注意力权重以及更新模块参数,输出第二序列;所述第二序列经Transformer解码器解码获取第三序列,所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。
2.根据权利要求1所述的光学字符识别的方法,其特征在于,所述文本检测选用递进聚合的方法。
3.根据权利要求1所述的光学字符识别的方法,其特征在于,所述第一深度神经网络包括残差神经网络组件,选用可变形卷积。
4.根据权利要求1所述的光学字符识别的方法,其特征在于,所述第一序列的长度为输入票据文本图图像宽度的四分之一。
5.根据权利要求1所述的光学字符识别的方法,其特征在于,所述第一序列中每个向量的维度为所述第二深度神经网络的最后一层卷积网络输出的通道数。
6.根据权利要求1所述的光学字符识别的方法,其特征在于,所述第三序列包括若干预测向量,所述各预测向量的维数等于对应字符类别数,选用softmax函数将预测向量的值映射到概率空间,获取对应字符的概率值,选取概率值最大的字符组成预测文本内容。
7.根据权利要求1所述的光学字符识别的方法,其特征在于,所述文本检测模块和所述文本识别模块的训练集样本由人工合成,所述人工合成训练集样本的步骤包括,随机生成文本边距,从票据背景库、票据语料库和票据字体库中选取数据,将语料数据按照字体数据的规范,写入背景数据中,并模拟自然场景下各种图像损耗。
8.根据权利要求7所述的光学字符识别的方法,其特征在于,所述图像损耗,包括模糊、弯曲、亮度损耗、颜色损耗、锐度损耗、随时线条和随机噪声。
9.根据权利要求7所述的光学字符识别的方法,其特征在于,所述票据背景库包括原始图像的票据背景,所述票据语料库包括票据通用语料和票据标注语料,所述票据字体库包括票据常用字体。
10.根据权利要求1所述的光学字符识别的方法,其特征在于,所述对原始图像进行数据增强的方法包括,随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110152434.3/1.html,转载请声明来源钻瓜专利网。





