[发明专利]一种图中数据的自动提取方法有效
申请号: | 201910972334.8 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110909732B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 姚金良;俞月伦;胡创 | 申请(专利权)人: | 杭州电子科技大学上虞科学与工程研究院有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06V10/30;G06V30/10 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 312399 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 自动 提取 方法 | ||
本发明公开了一种图中数据的自动提取方法。方法的主要包括以下步骤:文本区域定位与文本框分类;坐标轴定位,以及坐标轴的刻度标记位置定位;图例的定位与信息提取;根据图例颜色提取对应的柱体或者折线连通分量,并进行过滤和分类;确定X轴关键点并定位每个关键点对应的X轴标签;根据X轴关键点定位柱体和折线的关键点,确定关键点对应的标注数值文本框,并进行数值识别;计算每个像素对应数值,并估计柱体或者折线关键点对应的数值;根据估计值与识别的标注数值之间的差距来确定最终结果。本发明方法能够应对水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。实验证明方法具有较高的准确率和精确度。
技术领域
本发明属于计算机图像处理和模式识别领域,涉及一种图中数据的自动提取方法。
背景技术
柱状图、折线图等是一种更为直观的数据呈现方式,被广泛的用于各行各业中,特别是财经、科学研究、统计等行业。但是在日常工作中,有时需要引用他人制作的柱状图或者折线图中包含的数据用于自己的报告和文章中。由于无法获得原始数据,从图中获得其中包含的数据是一件比较困难的任务。一种简单的方式是通过直观的观察、估计、测量等手段获取数据。但是直观估计精确度较差,而且效率低下。如果有一种自动化的数据提取方法提高数据获取的效率和精确性将具有非常重要的应用价值。
当前获取柱状图和折线图中数据的方法是一种半自动的方法。该方法主要采用通过手工标注坐标轴上的最小值和最大值位置和对应的数值,以及柱子的高度位置、折线的关键点等信息来获得X轴特定位置上的数值。采用该类方法代表性的软件有国外开发的GetData和Engauge Digitizer。
柱状图和折线图是一种具有一定规则的数据呈现方式,但是在转换为图像形式的数据后。图像的本质是像素的集合,每个像素有RGB三个值,然后排列到不同的位置上。对图像进行分析主要采用图像处理方法,需要识别出柱体的外接矩形框、颜色,折线所在的位置等信息才能进一步的提取数据。
本发明中将柱状图,折线图,以及柱状图和折线图混合图统称为“数据图”,也就是有数据产生的各种图。数据图中涉及到各种标准的元素,主要包括:X轴、Y轴、刻度值、刻度线、刻度标记、X轴标签,X轴标签间隔、坐标轴、图例等标准元素。为了便于理解数据图中的各种元素,本说明书提供标注的样例图,见下图1。另外,柱状图中有柱体前景,折线图中有线状前景,各个柱体或者线的关键点上存在标注数值。这些数据图中的关键元素在特定情况下存在省略的情况,而且布局多变。主要表现为:Y轴可能存在两条,分别放置在左右;柱体可能存在横向放置的情况;图例可能放置在不同的地方;缺少Y轴刻度值。这些数据图中的元素也互相依赖,存在一定的位置关系。主要表现在:左Y轴刻度值肯定存在该Y轴的左边,右边Y轴的刻度值存在Y轴的右边;X轴标签存在X轴的下面;图例一般有实心的块、线或者点构成,而且同一个图例的不同部分颜色一致,而且图例的右边存在文本字符。
为了定位识别这些关键元素,需要采用图像处理和模式识别的相关技术和方法。但是如何实现图中数据的自动提取是亟需解决的技术问题。
发明内容
本发明的目的是针对现有技术只能采用半自动的数据提取这一效率低下问题,提供了一种数据图中数据的自动提取方法。
本发明方法主要采用深度学习方法来定位数据图中的文本框,并进行字符识别。然后按照一定顺序和规则提取各类其它元素,并通过元素之间的位置相关性来验证元素定位和识别是否正确。最后计算柱状图柱体和折线图上关键点的高度,并通过获取的坐标轴上每个像素对应数值来获取柱体或者折线关键点的估计值,并与识别的值进行比较,选择最优结果。
本发明具体采用的技术方案如下:
一种图中数据的自动提取方法,用于对柱状或折线形式数据图中的元素数据进行提取,其步骤如下:
S1:按照S11~S15的步骤,进行数据图中文本区域定位与文本框分类:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学上虞科学与工程研究院有限公司,未经杭州电子科技大学上虞科学与工程研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910972334.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置