[发明专利]一种基于OCR的图像分析方法、系统、设备及介质有效
申请号: | 202010315672.7 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111539412B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 周曦;姚志强;林旸焜;许梅芳 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 代玲 |
地址: | 201203 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 图像 分析 方法 系统 设备 介质 | ||
本发明提供一种基于OCR的图像分析方法、系统、设备及介质,包括:根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;基于所述语义分割结果对目标图像的版面进行分析。本发明通过对目标图像进行语义分割,根据分割后的结果进行版面分析,能够在遮挡、成像角度、旋转、光照等干扰下,快速、准确地检测目标图像中的文本;并且对于不规范的图像版式或表面,本发明也能结构化提取字段信息。
技术领域
本发明涉及图像技术领域,特别是涉及一种基于OCR的图像分析方法、系统、设备及介质。
背景技术
版面分析或版式分析是OCR(Optical Character Recognize,光学字符识别)领域的重要问题,其目的是判断给定图片或图像中是否包含有指定目标及获得指定目标的准确位置及边界。在OCR领域,场景文本检测任务已广泛采用语义分割和通用对象检测框架。而由于遮挡、成像角度、旋转、光照等干扰,现有技术中普通的目标检测很难同时满足快速和准确的文本检测需求,且对于不规范的图像版式或版面,也不能结构化提取字段信息。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于OCR的图像分析方法、系统、设备及介质,用于解决现有技术中存在的问题。
为实现上述目的及其他相关目的,本发明提供一种基于OCR的图像分析方法,包括以下步骤:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
可选地,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:
通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。
可选地,标注的内容包括以下之一:文本行属性、角点、偏移量。
可选地,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型;
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
可选地,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。
可选地,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
可选地,还包括结合多种权重进行角点匹配;所述权重至少包括以下之一:距离、长宽比、角度。
可选地,对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
可选地,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性。
可选地,所述干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。
可选地,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算模型损失,并对所有的模型损失进行加权,获取模型的总损失。
可选地,计算的模型损失包括以下至少之一:平滑L1损失、交叉熵损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010315672.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序