[发明专利]一种识别PDF文档中水印的方法在审
申请号: | 201710231660.4 | 申请日: | 2017-04-11 |
公开(公告)号: | CN107194390A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 常诚;何黎刚;陈浩 | 申请(专利权)人: | 常诚;何黎刚;陈浩 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省长沙市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 pdf 文档 水印 方法 | ||
技术领域
本发明属于PDF文件内容处理与分析的技术领域,本发明涉及一种识别 PDF 文件中水印的方法。
背景技术
PDF文档中经常出现水印用于标识该文档的版权、状态或其他附加信息,比如页面背景带“草稿”字样,提示文档未正式发表。PDF内容提取场景,如转换为其他格式(Word文档)或针对文字内容进行分析处理等,都需要识别水印信息,以免将它们混入正文干扰内容解析。
PDF格式标准中并没有独立的“水印”概念,水印内容同样是通过PDF命令绘制,即将文档记录的颜色、字体、大小、位置、透明度等指令显示在页面上,与正文数据操作完全相同,所以无法直接通过程序解读和区分水印信息。
然而,人眼却可以很容易辨别出水印:从构成角度看,水印可分为文字和图片(PDF格式中的位图Bitmap,下面不再赘述)两种;一般会显示相同或有规律的内容,并与正文有明显的风格(字体、字号等)差别;出现位置可以是正文下方作为内容背景,也可以是半透明状态覆盖在正文之上;另外水印通常都在页面特定位置出现,每页或至少正文页面都有。基于这些观察,本发明提出一种方法,利用水印显示规律自动识别PDF文档页面上的水印。
发明内容
本发明所要解决的技术问题是提供一种识别 PDF文件中的水印的方法,能够解析页面上的水印内容并标识其所在位置 。
本发明解决上述技术问题的技术方案如下。
步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。
步骤2:筛选(计数 > 页数 / 2)的指纹集合,查找相应指纹位置的元素。
步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5。
步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印。
步骤5:提取指纹对应的位图,如果相同则判定为图片水印。
在以上处理流程中,还涉及通过元素位置坐标参数,生成文本指纹方法;文字元素相同通过字体、字号、颜色、旋转参数综合对比判断;文字内容递增递减规律通过差分方法判断;相同图片对比位图md5哈希值方法判断等实施细节。
本发明的有益效果是:通过遍历PDF文件提取文本和位图元素,利用位置信息生成指纹。指纹生成方法在后面介绍。由于PDF文档按页显示内容,不同页面但同一位置的页面元素,可以通过条件(计数 > 页数 / 2)筛选出来,它们是潜在的水印。然后,针对备选指纹及指纹对应的内容判断,如果是文本内容,需要判断是否相同,或者满足某种变化规律,这是因为某些文本水印会附带页码、日期、项目编号等规律信息,满足条件则判定为水印;否则是图片内容,则直接判断位图数据是否相同,是则判定为图片水印。本发明利用指纹(计数)处理,避免存储、计算图文内容信息本身,节省分析开销。此外,针对文本、图片水印分别进行内容判断,可以大大拓展识别算法的适用性,提高识别率。
在上述处理流程中,本发明还阐述了位置指纹生成方法,相同/规律文字及相同图片判断条件等细节,综合解决PDF文档水印识别问题。
附图说明
图 1为本发明提出的识别 PDF文件中水印的方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述, 所举实例只用于解释本发明, 并非用于限定本发明的范围。
图 1为本发明提出的识别 PDF文件中的水印的方法的流程图。这里PDF是 Portable Document Format的缩写,意为便携文件格式,是一种电子文件格式,PDF文件指的是采用PDF格式的电子文件。该格式常用于保存和分发复杂排版的文档,名称中的便携(Portable)是指在各种硬件设备和软件平台上都可以获得相同的排版效果,因此特别适合用于要求准确显示、不可修改的文档。正因为这种不可修改的特性,生成文档时常常会添加水印,作用与纸质水印类似。本发明中,PDF文件中的水印可以是文字或图片(位图),出现在文档页面的固定位置,标识文档的版权、状态或其他附加信息。
如图1所示, 该方法包括。
步骤 101 : 提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常诚;何黎刚;陈浩,未经常诚;何黎刚;陈浩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710231660.4/2.html,转载请声明来源钻瓜专利网。