[发明专利]一种PDF文件解析方法及系统在审
申请号: | 201810690140.4 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109065109A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 黄建峰;罗景田;方海英 | 申请(专利权)人: | 杭州势成科技有限公司 |
主分类号: | G16H15/00 | 分类号: | G16H15/00;G06F17/22 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 胡拥军;糜婧 |
地址: | 310053 浙江省杭州市滨江区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 解析 分块 体检报告 格式输出 在线查阅 预设 解析系统 用户提供 用户体验 大数据 解读 服务 分析 健康 | ||
本发明公开了一种PDF文件解析方法及系统,该PDF文件解析方法包括:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。本发明通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本PDF文件解析系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
技术领域
本发明涉及PDF文档编辑技术领域,具体涉及一种PDF文件解析方法及系统。
背景技术
随着现有的用户健康体检平台的日趋完善,检后服务与健康大数据也成为不可缺少的一种趋势。用户体检完成后,可以在用户健康体检平台上通过在线查阅报告及报告解读等服务,方便地在线查阅和解读其体检报告。现有的体检报告主要以PDF格式存在,而PDF格式为特殊结构,现有的第三方库和技术上暂没有一套统一和完善的解析方法。因此,需要通过研发一套PDF体检数据的解析系统,便于为用户提供更加精准的检后服务及后期健康大数据的分析。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种PDF文件解析方法及系统,能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种PDF文件解析方法,该PDF文件解析方法包括以下步骤:
解析所述PDF文件,以得到解析后的字节;
将所述字节重新组成对象;以及
将所述对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,解析所述PDF文件,以得到解析后的字节包括以下步骤:解析所述PDF文件的自身语言结构,并从中查找trailer标签;从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,将所述字节重新组成对象包括以下步骤:将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
根据本发明的一个实施例,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
根据本发明的一个实施例,所述对象包括字符串、行、页。
根据本发明的另一方面,提供了一种PDF文件解析系统,该PDF文件解析系统包括:
解析模块,解析所述PDF文件,以得到解析后的字节;
重组模块,将所述解析模块解析得到的字节重新组成对象;
输出模块,将所述重组模块重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,所述解析模块还包括:
解析子模块,解析所述PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块,从所述解析子模块得到的trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,所述重组模块还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州势成科技有限公司,未经杭州势成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810690140.4/2.html,转载请声明来源钻瓜专利网。