[发明专利]获取PDF注释信息的方法及装置在审

申请号：	201811486563.0	申请日：	2018-12-06
公开（公告）号：	CN109597970A	公开（公告）日：	2019-04-09
发明（设计）人：	许德峰	申请（专利权）人：	万兴科技股份有限公司
主分类号：	G06F17/21	分类号：	G06F17/21;G06F17/22;G06F17/24
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	苏胜
地址：	850000 西藏自治区拉萨市柳梧新区东环路以西***	国省代码：	西藏;54
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	注释信息文档存储兼容数据格式类型数据传递数据格式数据结构数据类型文档格式文档数据直接获取解析阅读申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种获取PDF注释信息的方法及装置，所述方法可从FDF文档中获取注释信息，通过解析FDF文档可直接获取到存储在FDF文档中存储有PDF文档的注释信息。其中，所述FDF文档数据格式是类似于PDF文档结构的数据格式类型，FDF文档格式完全兼容PDF文档格式定义的所有数据类型，且是大多数PDF阅读产品能够兼容的数据格式。在不同的PDF文档之间进行数据传递时，由于注释信息存储在与PDF文档数据结构类似的FDF文档中，使得注释信息提取更加方便且可避免产生数据失真的问题。

技术领域

本申请涉及信息提取领域，具体而言，涉及一种获取PDF注释信息的方法及装置。

背景技术

注释信息是指人们在阅读过程中，通过PDF阅读工具添加的对PDF文档某些内容的看法或回复他人的看法。这些注释信息对于日后的再利用具有重要的意义。同一PDF，同一内容，不同的使用者可能给出不同的注释信息。

PDF的安全性首先保证了PDF文档不能被编辑，至少不能被轻易修改，PDF格式设计的初衷不是用来编辑的，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用市场上的有关工具，也无法避开这类限制，其次可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。

注释作为一个相对独立的内容块存放在PDF文档中，由于PDF格式自身的上述特点，这导致了直接使用某些注释信息不大现实，尤其是对PDF注释信息进行提取、传输是一件相当困难的事情。

现有技术将提取出的PDF注释信息通过XML格式存储，需要对XML格式的注释信息进行转换才能在PDF文档间进行传输，而在转换过程中就会存在数据失真的情况。

发明内容

为了解决上述问题，本申请实施例提供一种获取PDF注释信息的方法及装置。

第一方面，本申请实施例提供一种获取PDF注释信息的方法，所述方法包括：

解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，FDF文档存储有对所述PDF文档进行注释的注释信息；

在所述第一交叉索引表中进行查找，查找所述FDF文档中的第一Trailer字典；

在查找到所述第一Trailer字典后，查找所述第一Trailer字典中的第一Root字典项；

在查找到第一Root字典项后，查找所述第一Root字典项中的FDF字典项；

在查找到FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

可选地，在本实施例中，在解析FDF文档之前，所述方法还包括，从所述PDF文档中提取所述注释信息的步骤，所述步骤包括：

解析所述PDF文档，读取所述PDF文档中的第二交叉索引表；