[发明专利]一种识别PDF文档中水印的方法在审

专利信息
申请号: 201710231660.4 申请日: 2017-04-11
公开(公告)号: CN107194390A 公开(公告)日: 2017-09-22
发明(设计)人: 常诚;何黎刚;陈浩 申请(专利权)人: 常诚;何黎刚;陈浩
主分类号: G06K9/20 分类号: G06K9/20;G06K9/46
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省长沙市*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 pdf 文档 水印 方法
【说明书】:

技术领域

发明属于PDF文件内容处理与分析的技术领域,本发明涉及一种识别 PDF 文件中水印的方法。

背景技术

PDF文档中经常出现水印用于标识该文档的版权、状态或其他附加信息,比如页面背景带“草稿”字样,提示文档未正式发表。PDF内容提取场景,如转换为其他格式(Word文档)或针对文字内容进行分析处理等,都需要识别水印信息,以免将它们混入正文干扰内容解析。

PDF格式标准中并没有独立的“水印”概念,水印内容同样是通过PDF命令绘制,即将文档记录的颜色、字体、大小、位置、透明度等指令显示在页面上,与正文数据操作完全相同,所以无法直接通过程序解读和区分水印信息。

然而,人眼却可以很容易辨别出水印:从构成角度看,水印可分为文字和图片(PDF格式中的位图Bitmap,下面不再赘述)两种;一般会显示相同或有规律的内容,并与正文有明显的风格(字体、字号等)差别;出现位置可以是正文下方作为内容背景,也可以是半透明状态覆盖在正文之上;另外水印通常都在页面特定位置出现,每页或至少正文页面都有。基于这些观察,本发明提出一种方法,利用水印显示规律自动识别PDF文档页面上的水印。

发明内容

本发明所要解决的技术问题是提供一种识别 PDF文件中的水印的方法,能够解析页面上的水印内容并标识其所在位置 。

本发明解决上述技术问题的技术方案如下。

步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。

步骤2:筛选(计数 > 页数 / 2)的指纹集合,查找相应指纹位置的元素。

步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5。

步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印。

步骤5:提取指纹对应的位图,如果相同则判定为图片水印。

在以上处理流程中,还涉及通过元素位置坐标参数,生成文本指纹方法;文字元素相同通过字体、字号、颜色、旋转参数综合对比判断;文字内容递增递减规律通过差分方法判断;相同图片对比位图md5哈希值方法判断等实施细节。

本发明的有益效果是:通过遍历PDF文件提取文本和位图元素,利用位置信息生成指纹。指纹生成方法在后面介绍。由于PDF文档按页显示内容,不同页面但同一位置的页面元素,可以通过条件(计数 > 页数 / 2)筛选出来,它们是潜在的水印。然后,针对备选指纹及指纹对应的内容判断,如果是文本内容,需要判断是否相同,或者满足某种变化规律,这是因为某些文本水印会附带页码、日期、项目编号等规律信息,满足条件则判定为水印;否则是图片内容,则直接判断位图数据是否相同,是则判定为图片水印。本发明利用指纹(计数)处理,避免存储、计算图文内容信息本身,节省分析开销。此外,针对文本、图片水印分别进行内容判断,可以大大拓展识别算法的适用性,提高识别率。

在上述处理流程中,本发明还阐述了位置指纹生成方法,相同/规律文字及相同图片判断条件等细节,综合解决PDF文档水印识别问题。

附图说明

图 1为本发明提出的识别 PDF文件中水印的方法的流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述, 所举实例只用于解释本发明, 并非用于限定本发明的范围。

图 1为本发明提出的识别 PDF文件中的水印的方法的流程图。这里PDF是 Portable Document Format的缩写,意为便携文件格式,是一种电子文件格式,PDF文件指的是采用PDF格式的电子文件。该格式常用于保存和分发复杂排版的文档,名称中的便携(Portable)是指在各种硬件设备和软件平台上都可以获得相同的排版效果,因此特别适合用于要求准确显示、不可修改的文档。正因为这种不可修改的特性,生成文档时常常会添加水印,作用与纸质水印类似。本发明中,PDF文件中的水印可以是文字或图片(位图),出现在文档页面的固定位置,标识文档的版权、状态或其他附加信息。

如图1所示, 该方法包括。

步骤 101 : 提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常诚;何黎刚;陈浩,未经常诚;何黎刚;陈浩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710231660.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top