[发明专利]基于PDF文件解析的图谱数据还原方法在审
申请号: | 202110364526.8 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112861821A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 刘羽;王贺;王辉;李姜晖;刘永;付俐 | 申请(专利权)人: | 刘羽 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230022 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pdf 文件 解析 图谱 数据 还原 方法 | ||
1.基于PDF文件解析的图谱数据还原方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,依次获取图谱报告中存在的的路径对象(Path Object),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;
步骤二:获取图谱报告中存在的的路径对象(Path Object),根据情况,并进一步识别为图谱曲线、坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;
步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象;进一步的,对图谱其他文本对象根据对象位置判断对象功能,将文本对象的文本及对象相对坐标匹配,生成图谱参数数据;
步骤四:在图谱所处的位置范围内,获取文件图谱的的路径对象(Path Object),根据情况,并进一步识别为纵坐标刻度线,横坐标刻度线,积分线、积分线标记,将积分线的图谱坐标生成积分线相对坐标数据;
步骤五:根据步骤三和步骤四的结果分别形成纵坐标刻度信息数据和横坐标刻度信息数据;
步骤六:解析文件中数据汇总表的文本信息及文本的位置信息生成汇总表数据;
步骤七:读取或计算文件图谱中特定点的绝对坐标及对应的相对坐标;
步骤八:根据已知特定点组合的绝对坐标数据及相对坐标数据,计算图谱的横坐标校正系数与纵坐标校正系数;
步骤九:采用已知绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标校正系数与纵坐标校正系数,将步骤二得到的图谱相对坐标数据逐一进行换算,得到绝对坐标,生成图谱绝对坐标数据字典;
步骤十:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤三得到的图谱参数数据中的相对坐标数据逐一进行换算,得到绝对坐标,生成包含有绝对坐标的图谱参数数据字典;
步骤十一:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤二或步骤四得到的积分线相对坐标数据中的相对坐标逐一进行换算,得到绝对坐标,生成积分线绝对坐标数据字典;
步骤十二:将图谱绝对坐标数据字典,包含有绝对坐标的图谱参数数据字典,积分线绝对坐标数据字典合并打包生成结构化数据备用。
2.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。
3.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一到步骤四中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。
4.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一到步骤四中的图谱坐标是基于PDF页面位置进行定位的相对坐标,为符合Pdfminer工具软件所定义对象属性中的x0、y0、x1、y1或pts数据包中的内容。
5.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一中路径对象(Path Object)为符合Pdfminer工具软件所定义的LTRect对象。
6.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一中图谱的准确位置范围系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0,y0,x1,y1定义的矩形范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘羽,未经刘羽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364526.8/1.html,转载请声明来源钻瓜专利网。