[发明专利]图像中文本的识别方法及装置、电子设备、存储介质有效
申请号: | 201811202558.2 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109271967B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 刘铭 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V10/82;G06V30/18;G06N3/04;G06N3/08 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 文本 识别 方法 装置 电子设备 存储 介质 | ||
1.一种图像中文本的识别方法,其特征在于,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:
通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
从执行空间可分离卷积操作的最底层获取全局特征;
通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
2.根据权利要求1所述的方法,其特征在于,所述通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征,包括:
将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;
将所述边框候选区域输入执行区域筛选和区域旋转的池化层;
根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征,包括:
获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;
根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;
根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。
4.根据权利要求1所述的方法,其特征在于,所述识别分支网络层包括时间卷积网络层和字符分类层,所述将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列,包括:
将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;
将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;
利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。
6.根据权利要求5所述的方法,其特征在于,所述利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应的文本信息差异最小,包括:
根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;
根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。
7.根据权利要求6所述的方法,其特征在于,所述根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差,包括:
根据所述网络模型进行像素级分类预测产生的误差、像素级边框距离预测产生的误差以及像素级旋转角度预测产生的误差,确定所述网络模型进行文本区域检测产生的误差;
将所述网络模型进行文本区域检测产生的误差与执行字符识别操作产生的误差进行加权相加,获得所述网络模型的文本识别误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811202558.2/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序