[发明专利]一种基于深度学习的扭曲图像矫正方法、装置和存储介质在审
申请号: | 202110018743.1 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112597998A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 朱远平;吴磊;张立新 | 申请(专利权)人: | 天津师范大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 朱学绘 |
地址: | 300387 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 扭曲 图像 矫正 方法 装置 存储 介质 | ||
本发明提供了一种基于深度学习的扭曲图像矫正方法、装置和存储介质,涉及图像处理技术领域,包括:提取扭曲图像的特征数据;以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;根据特征数据,识别出扭曲图像中的待矫正元素;利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;根据预测偏移图矫正扭曲图像。该方法基于图像特征识别缩小了处理范围,从而有效降低扭曲图像中背景、干扰图形和光照等因素对于矫正效果的影响,提高基于深度学习的扭曲矫正方法的效果。
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种基于深度学习的扭曲图像矫正方法、装置和存储介质。
背景技术
在传统的文档数字化过程中,通常使用扫描仪对文档进行扫描,得到清晰平整的文档图像进行存储。但是扫描仪体积过大,不易携带,需要对文档进行按压,使用不便。随着移动产品的发展,使用手机等移动设备进行文档扫描已经是一种趋势,虽然手机的出现很大程度上代替了扫描仪,随之而来也出现了一些问题,比如使用手机拍摄文档时由于拍摄设备和文档平面不平行导致的透视形变,以及文档本身没有完全展开,存在弯曲甚至折痕。这会严重影响后续的光学字符识别等任务。目前,针对扭曲文档矫正的方法一般主要可以分为:基于三维重建的方法;基于模型的方法和基于深度学习的方法。对于三维重建的方法,通常使用专门的硬件设备来完成矫正,比如结构光源、立体照相机或者激光相机。通过这些设备获得文档的三维信息。通过三维重建得到变形文档和平整文档之间的映射关系,最后完成矫正,此方法可以有效处理变形,得到比较优秀的效果,但是此类方法对于硬件的要求过高,限制了方法的应用,通过手机无法完成矫正。对于基于模型的方法,通过将弯曲文档的表面建模为广义圆柱体来完成矫正,此类方法通常矫正效果不错但是适应的场景不多,大多数扭曲和理想的模型差距较大。对于基于深度学习的方法,通常使用语义分割的模型对扭曲原图进行偏移图的预测,此类方法适用于弯曲和折叠等多种复杂场景,但是矫正效果不够理想。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一,公开了一种基于深度学习的扭曲图像矫正方法、装置和存储介质,通过改良基于深度学习的矫正方法,降低扭曲图像中的背景、光照和干扰图形等噪声的影响,达到更好的矫正效果,提高矫正效率,降低运算量。
本发明的第一方面公开了一种基于深度学习的扭曲图像矫正方法,包括:提取扭曲图像的特征数据;以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;根据特征数据,识别出扭曲图像中的待矫正元素;利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;根据预测偏移图矫正扭曲图像。
在该技术方案中,提取待矫正扭曲图像的特征数据,根据特征数据识别出待矫正图像中的目标元素(待矫正元素),例如,根据文本行检测算法,获得图像的文本特征图(此时特征数据即为文本特征图)以识别出图像中的文档,准确定位待矫正图像中的目标元素,针对目标元素进行计算,减少背景噪声对矫正结果的影响,降低了运算量。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,提取扭曲图像的特征数据的步骤,具体包括:利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图作为所述特征数据。
在该技术方案中,针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正。直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图的步骤,具体包括:使用预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110018743.1/2.html,转载请声明来源钻瓜专利网。