[发明专利]基于PDF文件解析的图谱数据还原方法在审
申请号: | 202110364526.8 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112861821A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 刘羽;王贺;王辉;李姜晖;刘永;付俐 | 申请(专利权)人: | 刘羽 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230022 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pdf 文件 解析 图谱 数据 还原 方法 | ||
本发明公开了基于PDF文件解析的图谱数据还原方法,该方法包括:通过解析文件获得图谱位置范围;依据图谱中各类相关对象的位置属性,识别分类不同功能的数据及相对坐标;通过数据间的相互关系,获得图谱中的特定点的相对坐标和绝对坐标,并进一步获得相对坐标和绝对坐标所对应的横坐标校正系数和纵坐标校正系数;通过对所获得的相对坐标数据的换算,得到构建图谱的绝对坐标数据,从而实现对PDF图谱数据的还原。将PDF格式的图谱内容转换为反映图谱特征的、数值与原始数据接近、可操作可检索的数据,使图谱数据的使用脱离原专用系统、工作站、工作程序的限制,提升图谱数据的交换、查询、比对的便利性,方便进行数据的统一管理。
技术领域
本发明涉及基于PDF文件解析的图谱数据还原方法,属于文件数据解析领域。
背景技术
图谱作为科学研究的重要手段,在分析实验中的作用巨大。图谱通常以包含纵坐标与横坐标的散点图形式出现,通常呈现连续性变化,其纵坐标与横坐标具有特征性的相关性。例如液相图谱:洗脱物质的吸收值与洗脱时间的对应关系;紫外分光光度的扫描图谱:样品吸光值与步进变化的波长之间的对应关系;晶体的X衍射:步进变化的衍射角2θ与强度标值I之间的对应关系等等。
这种特征性的相关性直接或间接的反映出了被研究对象特定的物理化学性质,因此图谱解析作为现代实验室的主要研究手段异常重要。
现代分析仪器通常采用安装于PC机、工作站或者网络服务器的专用工作软件进行数据抓取和分析,仪器与专用软件之间属于一对一的匹配,具有专属性;综合型实验室因为研究目标、研究手段、设备更新等原因,又存在实际应用场景中的多样性。例如实验室会配备多种研究设备采用不同的方法(如液相色谱、气相色谱、质谱、核磁共振、热分析等)对同一研究目标从多方面进行研究,且由于商业竞争、仪器更新迭代、软件版本升级等原因,相同原理的检测设备也会出现不同品牌设备并存或是同品牌新老设备并存的现象。
由于上述的种种原因,现代实验室中的图谱数据文件格式五花八门。对综合型实验室,多类型图谱综合性的数据管理及报告生成并没有较好的解决方案。
现有LIMS系统(实验室信息管理系统)及SDMS(科学数据管理系统)或是属于第三方开发系统,因为缺乏对仪器硬件底层技术及图谱数据原始文件的数据结构的了解,易造成数据采集的不完整;或是因为硬件供应商自行开发的控制及管理系统,其专属性太强,无法实现跨品牌、跨硬件类型的数据采集,会因为网络内部的仪器类型,仪器型号,厂商的不同而产生兼容性问题。
综合性实验室需要实现数据采集的专属性与仪器系统兼容性的平衡。
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。通过对PDF文件的解析和数据还原,可以实现对综合性实验室电子数据的管理。目前所知对PDF文件的解析通常只是针对文件中的字符型数据按照规则进行解析,对以图形式展现的图谱并没有较好的解析,这使得所得到的报告数据并不全面。
发明内容
发明目的:本发明针对综合型实验室存在的问题,提出一种图谱数据还原方法,将PDF格式的图谱报告还原为包含图谱绝对坐标数据、积分线及图谱参数的集合,并打包生成可进行数据传输XML、Json等的特定数据结构文件。上述文件可在设定解析策略后被通用的Origin、EXCEL、Matlab等数据处理软件识别、解析并绘制为矢量图谱。并可以在上述软件中进行进一步的数据标记、面积积分操作。
技术方案:多数电子仪器的基本原理是通过传感器接收特定信号,如特定波长,温度,压力等,转换为电信号,并通过数模转换成为可被计算机记录处理的数字信号,该数字信号与对应的参数如保留时间,转角步进,变化波长等一一匹配,形成以二维数组列表形式的原始数据记录;上述记录通过特定软件/算法进行处理、计算、压缩最终生成图谱报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘羽,未经刘羽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364526.8/2.html,转载请声明来源钻瓜专利网。