[发明专利]基于PDF文件解析的图谱数据处理方法在审
申请号: | 202110364531.9 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112861822A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 刘羽;王辉;李姜晖;王贺;付俐;刘永 | 申请(专利权)人: | 刘羽 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/166 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230022 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pdf 文件 解析 图谱 数据处理 方法 | ||
1.一种基于PDF文件解析的图谱数据处理方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,依次读取图谱报告中存在的的路径对象(Path Object),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;
步骤二:获取图谱报告中存在的的路径对象(Path Object),根据情况,并进一步识别为图谱曲线,坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;
步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象;进一步的,对图谱其他文本对象根据对象位置判断对象功能,将文本对象的文本及对象位置相对坐标匹配,生成图谱参数数据;
步骤四:在图谱所处的位置范围内,获取文件图谱的的路径对象(Path Object),根据情况,并进一步识别为纵坐标刻度线,横坐标刻度线,积分线、积分线标记,将积分线的图谱坐标生成积分线相对坐标数据;
步骤五:根据步骤三和步骤四的结果分别形成纵坐标刻度信息数据和横坐标刻度信息数据;
步骤六:将步骤二到步骤五所获得的信息保存为绘图参数;
步骤七:通过绘图软件导入步骤六所得到的绘图参数进行描绘,得到图谱;
步骤八:输出为图谱图片以供合成报告文件。
2.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。
3.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一到步骤四中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。
4.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一到步骤四中的图谱坐标是基于PDF页面位置进行定位的相对坐标,为符合Pdfminer工具软件所定义对象属性中的x0、y0、x1、y1或pts数据包中的内容。
5.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一中路径对象(Path Object)为符合Pdfminer工具软件所定义的LTRect对象。
6.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一中所述图谱的准确位置范围系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0、y0、x1、y1定义的矩形范围。
7.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中路径对象(Path Object)为符合Pdfminer工具软件所定义的LTCurve对象。
8.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中图谱坐标为LTCurve对象属性中的pts数据包内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘羽,未经刘羽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364531.9/1.html,转载请声明来源钻瓜专利网。