[发明专利]图像的文字识别方法、装置、电子设备及可读存储介质有效
申请号: | 201910065232.8 | 申请日: | 2019-01-23 |
公开(公告)号: | CN111476067B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 杨帆;高文龙;欧贫扶 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/41;G06V30/148;G06V30/19 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 文字 识别 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种图像的文字识别方法、装置、电子设备及可读存储介质,该方法包括:对待处理图像进行多尺度检测,得到像素级热力图;基于像素级热力图进行实例分割,提取出待处理图像对应的各个文本框信息;根据各个文本框信息,在待处理图像中确定出与各个文本框信息分别对应的文本框图像;对各个文本框图像进行识别,得到分别对应的文字识别结果,即本申请采用基于像素级别的预测和实例分割,可以在待处理图像中分割出各种角度以及各种弯曲形状的文本,有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰,再通过对文本整体进行识别,避免了单字分割可能会引起的识别错误,显著提升图像的文字识别的准确率和召回率。
技术领域
本申请涉及OCR(Optical Character Recognition,光学字符识别)技术领域,具体而言,本申请涉及一种图像的文字识别方法、装置、电子设备及可读存储介质。
背景技术
OCR是指将一幅图像中的文字信息识别出来的技术。它的本质就是将光学设备捕捉的图像进行检测并对文字进行识别,将视觉和识字能力延伸到机器上。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业等领域。例如,在医疗健康业务的一种预约场景中,需要识别用户使用手机拍摄上传的临床病历照片中的文字,以实现精准预约。而通过OCR技术能够节省可观的识别、判别时间,节省大量人力和物力,提高处理效率。
但是,通常的业务场景中,照片的文字信息普遍较为复杂,例如会存在阴影、遮挡、褶皱、扭曲、多方向、多行密集等情况。使用现有技术中的图像检测方式仍无法达到理想的识别效果。例如,传统目标检测算法无法适应文本横跨整个页面的需求。又例如,语义分割的图像检测方式,只会将同一类型的目标所在的整体区域划分出来,可能会导致较为紧密的多行文字无法有效地区分开,结果产生多行检测为一行的情况,影响后续识别过程。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
第一方面,本申请提供了一种图像的文字识别方法,该方法包括:
对待处理图像进行多尺度检测,得到像素级热力图;
基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息;
根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像;
对各个文本框图像进行识别,得到分别对应的文字识别结果。
在一种可选的实现方式中,所述对待处理图像进行多尺度检测,得到像素级热力图,包括:
将所述对待处理图像缩放为多种预设尺度的图像;
对所述多种预设尺度的图像分别进行多尺度检测,得到所述多种预设尺度的像素级热力图。
在一种可选的实现方式中,对任一种预设尺度的图像进行多尺度检测,得到所述任一种预设尺度的像素级热力图,包括:
对所述任一种预设尺度的图像提取多个尺度层的特征图;
将所述多个尺度层的特征图进行融合,得到融合后的特征图;
将所述融合后的特征图进行分类,得到所述任一种预设尺度的像素级热力图。
在一种可选的实现方式中,所述像素级热力图包含每个像素点的两种通道信息,任一像素点的两种通道信息包括:
像素通道信息,用于表征所述任一像素点是否为文字;
连通通道信息,用于表征所述任一像素点与周围预定数量的像素点是否连通。
在一种可选的实现方式中,基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910065232.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序