[发明专利]数字图书结构化分析处理方法有效

专利信息
申请号: 201610586830.6 申请日: 2016-07-22
公开(公告)号: CN106250830B 公开(公告)日: 2019-05-24
发明(设计)人: 鲁伟明;马朋坤;魏宝刚;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静;邱启旺
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理,在此基础上获得图书的文本信息和视觉特征值,同时对图书的版面进行识别,去除无关信息。然后,根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接,并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征,提高了图书结构化的准确率和适用性。
搜索关键词: 数字 图书 结构 化分 处理 方法
【主权项】:
1.一种数字图书结构化分析处理方法,其特征在于,包括以下步骤:1)图书扫描图像切割和视觉特征提取:通过图像处理方法对图书扫描图像进行切割,获取坐标信息,然后提取视觉特征值;该步骤包括:1.1对图书扫描图像进行切割,获取每行文本的坐标信息,包括:起始横坐标(left),结束横坐标(right),起始纵坐标(top),结束纵坐标(bottom),以及每行字符宽度,每行字符间距;1.2依据目录和段落的视觉特征,将视觉特征量化为视觉特征值,然后对视觉特征值进行提取;目录识别提取需要的视觉特征有:缩进(indentation)、行宽(width)、行高(height)和行间距(space);其中,缩进由相邻两行的起始横坐标相减而得;行宽由结束横坐标和起始横坐标相减而得,表示为:widthi=righti‑lefti,其中1≤i≤n,n为总行数; 行高由结束纵坐标和起始纵坐标相减而得,表示为:heighti=bottomi‑topi,其中1≤i≤n,n为总行数; 行间距由下邻行起始纵坐标和本行结束纵坐标相减而得,表示为:spacei=topi+]‑bottomi,其中1≤i≤n‑1,n为总行数; 段落识别所需的视觉特征有:缩进、行宽、每页字符宽度、每页字符间距;缩进由每行起始横坐标与该页普通行的起始横坐标相减而得;行宽与上面计算方式相同;每页字符宽度和每页字符间距的计算需要首先对图像切割时得到的每行字符宽度值和每行字符间距值计算它们分布最为集中的中位数,最后取该页所有行的字符宽度和字符间距的中位数分布最为集中的中位数作为该页的字符宽度值和字符间距值;2)图书扫描图像版面分析和OCR识别:通过提取得到的视觉特征值对图书扫描图像进行版面分析,去除无关信息;通过OCR工具将图书扫描图像识别为文字;3)目录页和正文页判断:通过目录的布局特征和视觉特征判断目录页的范围,进而确定正文页的范围;4)目录识别:在步骤3)的基础上,通过目录的布局特征和视觉特征构建目录模型,提取出目录的条目信息,然后识别出完整的目录结构;5)正文段落识别:在步骤3)的基础上,通过段落的布局特征和视觉特征将正文的段落识别出来,构建正文的段落结构;6)目录链接:在步骤4)和步骤5)的基础上,通过页码匹配和标题匹配两级匹配制度,将结构化的图书目录与正文链接起来,得到完整的图书结构;7)图书结构化表示:基于步骤6)中得到的链接结果,用XML语言将图书进行结构化表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610586830.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top