[发明专利]图像中文本的识别方法及装置、电子设备、存储介质有效
申请号: | 201811202558.2 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109271967B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 刘铭 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V10/82;G06V30/18;G06N3/04;G06N3/08 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 文本 识别 方法 装置 电子设备 存储 介质 | ||
本发明揭示了一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质,该方案通过多层叠加的网络模型执行图像中文本的端到端识别,该方案包括:通过多层方式逐层进行图像的空间可分离卷积操作,将空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,低层与输出卷积特征的高层相映射;从执行空间可分离卷积操作的最底层获取全局特征;通过全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;将池化特征后向传播至执行字符识别操作的识别分支网络层,通过识别分支网络层输出文本区域标记的字符序列。该方案节省了模型训练时间,提高了识别准确性。
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质。
背景技术
在计算机图像处理领域,文本识别是指让计算机自动地判别图像中的字符属于字符库中的哪一个字,字符库由人们事先建立,通常包含现实生活中最常用的字符。
图像中文本的识别,通常通过搭建两个模型,一个模型用于在一张包含文本的自然场景图像中找出文本所在位置,然后从图像中裁剪出文本区域。另一个模型用于识别出文本区域的具体字符内容。具体的,先获取包含不同字符的大量样本图像作为训练集,利用这些样本图像分别进行字符分类器的训练和文本定位器的训练。在训练完成后,先通过文本定位器从待测图像中定位出文本区域,然后裁剪出文本区域,再利用字符分类器识别出文本区域的字符内容。
上述方案,需要利用这些样本图像分别进行字符分类器的训练和文本定位器的训练,模型训练的工作量较大,并且最终字符的识别准确性,受到两个模型准确率的影响,由此限制了图像中文本识别准确率的提升。
发明内容
为了解决相关技术中存在的需要分别进行字符分类器的训练和文本定位器的训练,模型训练的工作量较大,识别准确性不高的问题,本发明提供了一种图像中文本的识别方法。
本发明提供一种图像中文本的识别方法,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:
通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
从执行空间可分离卷积操作的最底层获取全局特征;
通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
另一方面,本发明提供了一种图像中文本的识别装置,所述装置通过多层叠加的网络模型执行图像中文本的端到端识别,所述装置包括:
空间卷积操作模块,用于通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
全局特征提取模块,用于从执行空间可分离卷积操作的最底层获取全局特征;
池化特征获得模块,用于通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
字符序列输出模块,用于将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
另一方面,本发明还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行完成上述图像中文本的识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811202558.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序