[发明专利]构建字符识别模型与识别字符的方法和装置有效
申请号: | 201910477704.0 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110222693B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 韩景涛;曾华荣;韩锋 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06N3/04;G06N3/08 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 王明远 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 字符 识别 模型 方法 装置 | ||
提供了一种构建字符识别模型与识别字符的方法和装置。本发明中的特征提取网络结构包括第一特征提取网络结构或者第二特征提取网络结构,第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层。在字符识别过程中,通过利用该特征提取网络结构对图片进行特征提取,可以在大大降低对计算资源的要求的同时,做到比主流架构更好的特征提取效果。
技术领域
本发明总体说来涉及字符识别技术领域,更具体地说,涉及一种构建字符识别模型的方法和装置,基于字符识别模型识别图片中字符的方法和装置,以及系统和存储介质。
背景技术
字符识别是计算机视觉研究领域的一个分支。随着科技的发展,字符识别技术的应用越来越广泛。例如,当车辆进入停车场、收费站时,通过利用字符识别技术自动识别车牌,可以免去人工登记步骤,节省人力资源。再例如,通过字符识别技术自动识别出发票中的交易金额、纳税人识别号、开户行等发票信息,可以免去人工录入操作,节省人力资源。
目前主要是利用神经网络技术来实现字符识别。基于神经网络技术的字符识别方案,主要是利用vgg16、ResNet等经典网络骨架来进行特征提取,但是vgg16、ResNet等经典网络骨架往往包含上亿参数,对计算资源要求较高。
发明内容
本发明的示例性实施例旨在克服字符识别过程中特征提取部分所需计算量较高的缺陷。
根据本发明的第一个方面,提出了一种基于字符识别模型识别图片中字符的方法,其中,字符识别模型包括特征提取模块和识别模块,方法包括:将预测图片输入特征提取模块,得到特征提取模块输出的特征矩阵;其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。
可选地,在第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
可选地,识别模块包括概率生成单元和解码单元,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果的步骤包括:将特征矩阵输入概率生成单元,以得到概率矩阵,其中,概率矩阵中的每个列向量用于表征预测图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果。
可选地,将特征矩阵输入概率生成单元,以得到概率矩阵的步骤包括:概率生成单元为循环神经网络结构,将特征矩阵中的列向量依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。
可选地,循环神经网络结构的隐藏层中神经元的个数是根据字符解空间的大小设定的,并且/或者循环神经网络结构的输出层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第三预定阈值。
可选地,循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477704.0/2.html,转载请声明来源钻瓜专利网。