[发明专利]获取PDF注释信息的方法及装置在审
申请号: | 201811486563.0 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109597970A | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 许德峰 | 申请(专利权)人: | 万兴科技股份有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/22;G06F17/24 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 苏胜 |
地址: | 850000 西藏自治区拉萨市柳梧新区东环路以西*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注释信息 文档 存储 兼容 数据格式类型 数据传递 数据格式 数据结构 数据类型 文档格式 文档数据 直接获取 解析 阅读 申请 | ||
本申请提供了一种获取PDF注释信息的方法及装置,所述方法可从FDF文档中获取注释信息,通过解析FDF文档可直接获取到存储在FDF文档中存储有PDF文档的注释信息。其中,所述FDF文档数据格式是类似于PDF文档结构的数据格式类型,FDF文档格式完全兼容PDF文档格式定义的所有数据类型,且是大多数PDF阅读产品能够兼容的数据格式。在不同的PDF文档之间进行数据传递时,由于注释信息存储在与PDF文档数据结构类似的FDF文档中,使得注释信息提取更加方便且可避免产生数据失真的问题。
技术领域
本申请涉及信息提取领域,具体而言,涉及一种获取PDF注释信息的方法及装置。
背景技术
注释信息是指人们在阅读过程中,通过PDF阅读工具添加的对PDF文档某些内容的看法或回复他人的看法。这些注释信息对于日后的再利用具有重要的意义。同一PDF,同一内容,不同的使用者可能给出不同的注释信息。
PDF的安全性首先保证了PDF文档不能被编辑,至少不能被轻易修改,PDF格式设计的初衷不是用来编辑的,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用市场上的有关工具,也无法避开这类限制,其次可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。
注释作为一个相对独立的内容块存放在PDF文档中,由于PDF格式自身的上述特点,这导致了直接使用某些注释信息不大现实,尤其是对PDF注释信息进行提取、传输是一件相当困难的事情。
现有技术将提取出的PDF注释信息通过XML格式存储,需要对XML格式的注释信息进行转换才能在PDF文档间进行传输,而在转换过程中就会存在数据失真的情况。
发明内容
为了解决上述问题,本申请实施例提供一种获取PDF注释信息的方法及装置。
第一方面,本申请实施例提供一种获取PDF注释信息的方法,所述方法包括:
解析FDF文档,读取所述FDF文档的第一交叉索引表,其中,FDF文档存储有对所述PDF文档进行注释的注释信息;
在所述第一交叉索引表中进行查找,查找所述FDF文档中的第一Trailer字典;
在查找到所述第一Trailer字典后,查找所述第一Trailer字典中的第一Root字典项;
在查找到第一Root字典项后,查找所述第一Root字典项中的FDF字典项;
在查找到FDF字典项后,查找所述FDF字典项中的Annots数组,得到存储在FDF文档中的注释信息。
可选地,在本实施例中,在解析FDF文档之前,所述方法还包括,从所述PDF文档中提取所述注释信息的步骤,所述步骤包括:
解析所述PDF文档,读取所述PDF文档中的第二交叉索引表;
在所述第二交叉索引表中进行查找,查找所述PDF文档中的第二Trailer字典;
在查找到第二Trailer字典后,查找所述第二Trailer字典的第二Root字典项,获取到Catalog字典;
在查找到Catalog字典后,查找所述Catalog字典的Pages字典项,获取到页面树Pages Root;
检索Pages Root得到多个页面字典,依次检索每一个页面字典,并从每一个页面字典的Annots字典项获取注释信息;
将获取到的注释信息以FDF文档的格式存储。
可选地,在本实施例中,在将获取到的注释信息以FDF文档的格式存储之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万兴科技股份有限公司,未经万兴科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811486563.0/2.html,转载请声明来源钻瓜专利网。