[发明专利]一种扫描版文档重排版的方法有效

专利信息
申请号: 201110302301.6 申请日: 2011-10-09
公开(公告)号: CN102890827A 公开(公告)日: 2013-01-23
发明(设计)人: 王毅 申请(专利权)人: 北京多看科技有限公司
主分类号: G06T11/60 分类号: G06T11/60
代理公司: 暂无信息 代理人: 暂无信息
地址: 100029 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 扫描 文档 排版 方法
【权利要求书】:

1.一种扫描版文档重排版的方法,其特征在于,包括以下步骤:

A、将扫描版文档生成图像,转化为二值图;

B、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;

C、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置;

D、根据获得的图片位置和文字段落位置,确定文档段落区域;

E、计算每个文档段落区域的宽高之比r,计算显示屏幕的宽高之比R;

F、如果一个文档段落区域的宽高之比满足以下公式:

r∈[R-d1,R+d2],其中d1和d2为预设的正的常数,则不处理所述文档段落区域,如果不满足,则将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域;

G、确定所有文档段落区域的阅读顺序,并按照顺序将获得的文档段落区域放大或缩小至需要显示的尺寸,提供逐屏阅读。

2.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤A中,采用全局自适应阈值方式将生成的图像转化为二值图。

3.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,拆分的分割线在空白区域。

4.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,采用将所述文档段落区域进行等分的方式。

5.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤G中确定所有文档段落区域的阅读顺序进一步包括以下步骤:

G1、设步骤D中获得的文档段落区域的数量为n,整个文档用集合表示为S={B1,B2,…,Bn},其中Bn表示第n个文档段落区域,设(Xi,Yi)表示文档段落区域Bi的左上顶点的坐标,其中i=1,2,…,n;

G2、对整个文档S中元素进行调整,使调整后的S={B1,B2,…,Bn}满足以下条件:

对于Bi和Bj,并且i<j,若Yi∈[Yj-a1,Yj+a2],其中a1和a2为正的常数,则满足Xi≤Xj,否则需满足Yi≤Yj;

G3、若步骤F中文档段落区域Bi被拆分为S’={P1,P2,…,Pk},按照步骤G2的要求去调整S’中元素的位置,得到调整后的S’={P1,P2,…,Pk},其中Pk表示调整后的第k个文档段落区域,k为正整数;

G4、对于每个被拆分的文档段落区域Bi,将采用步骤G3得到的调整后的S’中的元素全部加入到S中Bi所在的位置,并将Bi从S中删除,得到新的集合S” = {Q1,Q2,…,Qm},其中Qm表示调整后的第m个文档段落区域,m为正整数;

G5、采用Q1,Q2,…,Qm的顺序确定阅读文档段落区域的顺序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京多看科技有限公司,未经北京多看科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110302301.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top