[发明专利]一种研报板式识别和分割的方法、系统及装置在审

专利信息
申请号: 201810906272.6 申请日: 2018-08-10
公开(公告)号: CN108960210A 公开(公告)日: 2018-12-07
发明(设计)人: 赵勇 申请(专利权)人: 武汉优品楚鼎科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34
代理公司: 暂无信息 代理人: 暂无信息
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 板式 分栏 分割 系统及装置 波谷位置 空白像素 直方图 标注 图片 预处理操作 正则表达式 内容提供 图像处理 自动获取 自动识别 便利性 截取 遍历 工作量 分析
【说明书】:

发明公开了一种研报板式识别和分割的方法、系统及装置。本发明通过截取PDF文件为图片;对所述图片进行一系列预处理操作,获取其图片的空白像素直方图;遍历所述空白像素直方图,获取其最低波谷位置;依据所述最低波谷位置在图片上标注,并依据所述标注对所述图片进行板式分割。发明基于研报板式的复杂多样,采用图像处理和正则表达式相结合的方法自动识别出各种板式的分栏并做分割,可以自动获取PDF文件中的每页中的各分栏。该发明为研报分析人员针对性的提取自己所需的分栏内容提供了便利性,大大降低了研报分析人员的工作量。

技术领域

本发明涉及一种PDF文件数字图像处理技术领域,尤其涉及一种PDF研报板式的识别和分割的数字图像处理技术。

背景技术

PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的广泛使用,大量有价值的数据均以PDF文档的形式呈现出来。 因此,如何从PDF文档中提取数据,是一个被广泛关注和研究的问题。

研报是机构对一家公司或者一个行业的研究报告,是众多投资者做投资决策的重要依据。而针对大量的研报,投资者需要花费大量的时间去一一研读,包括一些不需要的研报内容。而有的投资者往往仅需要一份研报中的额部分图文、报表等数据。无形增加了投资者的工作量。研报的文件格式一般都是PDF文件,研报的板式复杂多样,每个券商之间的板式都不一样,这也给研报自动识别增加了难度。研报有侧栏,转换成html后,侧栏混合在正文中,无法进行提取,所以进行版式识别是非常必要的。

发明内容

本发明涉及研报自动化提取中,研报板式的自动识别以及板式的分割。这里采用图像处理和正则表达式相结合的方法进行版式识别。其具体的技术方案内容如下:

第一方面,一种研报板式识别和分割的方法,所述方法步骤为:

步骤101,截取PDF文件为图片,转换模块将PDF文件按页分别保存为图片一;

步骤102,预处理图片二,预处理模块获取所述图片执行预处理操作,生成预处理图片二;

步骤103,获取目标分栏位置,分析模块获取所述预处理图片二,生成所述预处理图片二的空白像素直方图,分析所述空白像素直方图中的最低波谷,获取所述空白像素直方图中目标分栏的位置;

步骤104,标注所述目标分栏,标注模块根据所述空白像素直方图中的所述目标分栏的位置,在所述图片一中标注所述目标分栏的位置,生成标注图片。

结合第一方面,在第一方面可能的实现方式中的第一种情况为,还包括步骤105,分割目标分栏,所述分割模块根据所述图片中标注的所述目标分栏的位置分割所述图片,并保存所述分割的图片。

结合第一方面及第一方面可能的实现方式中的第一种情况,在第一方面可能的实现方式中的第二种情况为,所述步骤102为,预处理模块获取所述图片执行灰度化、阈值分割、二值化、去噪预处理操作,生成预处理图片二。

结合第一方面可能的实现方式中的第二种情况,在第一方面可能的实现方式中的第三种情况为,所述预处理操作为依次执行灰度化-阈值分割-二值化-去噪。

结合第一方面可能的实现方式中的第三种情况,在第一方面可能的实现方式中的第四种情况为,所述阈值分割操作为otsu阈值分割操作;所述去噪操作为腐蚀膨胀去噪操作。

结合第一方面可能的实现方式中的第三种或第四种情况,在第一方面可能的实现方式中的第五种情况为,所述步骤103为,分析模块获取所述预处理图片二,生成所述预处理图片二的横轴方向的空白像素直方图,遍历所述空白像素直方图的横轴,分析获取所述空白像素直方图中横轴的最低波谷,根据所述最低波谷分析获取所述空白像素直方图中纵轴方向的目标分栏的位置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉优品楚鼎科技有限公司,未经武汉优品楚鼎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810906272.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top