[发明专利]图像数据处理方法、装置、计算机设备及存储介质在审
申请号: | 201811106590.0 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109492143A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 黄锦伦 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/53 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取目标 区域块 原始图像 文本 图像 图像数据处理 计算机设备 存储介质 图像类型 文本行 标注 图像识别技术 定位算法 目标识别 目标图像 目标文字 爬虫工具 图像样本 概率 样本 应用 | ||
1.一种图像数据处理方法,其特征在于,包括:
采用爬虫工具爬取原始图像,每一所述原始图像对应一图像类型;
采用文本定位算法对所述原始图像进行文本定位,获取至少一个文本行区域,并对每一所述文本行区域进行截图,获取对应的区域块图像,每一所述区域块图像对应一位置信息;
基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型;
采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率;
基于至少两个所述识别文字和与每一所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,将所述目标文字确定为标注文本,基于所述区域块图像和所述标注文本,获取目标图像样本。
2.如权利要求1所述的图像数据处理方法,其特征在于,所述爬虫文件包括目标URL和搜索关键词;
所述采用爬虫工具爬取原始图像,包括:
获取数据爬取任务,所述数据爬取任务包括任务类型和文件标识;
若所述任务类型为实时任务,则触发爬虫工具执行与所述文件标识相对应的爬虫文件,从所述目标URL对应的网站中爬取与所述搜索关键词相匹配的图像,确定为原始图像;
若所述任务类型为定时任务,则触发时间监控工具,以使系统当前时间达到所述数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与所述文件标识相对应的爬虫文件,从所述目标URL对应的网站中爬取与所述搜索关键词相匹配的图像,确定为原始图像。
3.如权利要求1所述的图像数据处理方法,其特征在于,在所述采用爬虫工具爬取原始图像的步骤之后,所述图像数据处理方法还包括:
采用拉普拉斯算子对所述原始图像进行锐化处理,获取锐化图像;
对所述锐化图像的像素灰度值进行方差计算,获取所述锐化图像的目标方差值;
若所述目标方差值大于预设阈值,则将所述锐化图像更新为原始图像;
若所述目标方差值不大于预设阈值,则删除与所述目标方差值相对应的原始图像和锐化图像。
4.如权利要求1所述的图像数据处理方法,其特征在于,所述基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型,包括:
基于所述图像类型和所述区域块图像的位置信息,获取所述区域块图像的属性,所述属性包括专用属性和通用属性;
若所述区域块图像的属性为专用属性,则将与所述专用属性相对应的专用OCR识别模型确定为目标OCR识别模型;
若所述区域块图像的属性为通用属性,则将与所述通用属性相对应的通用OCR识别模型确定为目标OCR识别模型。
5.如权利要求1所述的图像数据处理方法,其特征在于,所述采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率,包括:
采用文字切割算法对所述区域块图像进行切割,获取至少两个单字体图像;
将至少两个所述单字体图像依据切割顺序输入到所述目标OCR识别模型,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括每一所述单字体图像对应的至少两个识别文字和与每一所述识别文字相对应的识别概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811106590.0/1.html,转载请声明来源钻瓜专利网。