[发明专利]一种扫描版文档重排版的方法有效
申请号: | 201110302301.6 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102890827A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 王毅 | 申请(专利权)人: | 北京多看科技有限公司 |
主分类号: | G06T11/60 | 分类号: | G06T11/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扫描 文档 排版 方法 | ||
1.一种扫描版文档重排版的方法,其特征在于,包括以下步骤:
A、将扫描版文档生成图像,转化为二值图;
B、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;
C、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置;
D、根据获得的图片位置和文字段落位置,确定文档段落区域;
E、计算每个文档段落区域的宽高之比r,计算显示屏幕的宽高之比R;
F、如果一个文档段落区域的宽高之比满足以下公式:
r∈[R-d1,R+d2],其中d1和d2为预设的正的常数,则不处理所述文档段落区域,如果不满足,则将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域;
G、确定所有文档段落区域的阅读顺序,并按照顺序将获得的文档段落区域放大或缩小至需要显示的尺寸,提供逐屏阅读。
2.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤A中,采用全局自适应阈值方式将生成的图像转化为二值图。
3.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,拆分的分割线在空白区域。
4.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,采用将所述文档段落区域进行等分的方式。
5.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤G中确定所有文档段落区域的阅读顺序进一步包括以下步骤:
G1、设步骤D中获得的文档段落区域的数量为n,整个文档用集合表示为S={B1,B2,…,Bn},其中Bn表示第n个文档段落区域,设(Xi,Yi)表示文档段落区域Bi的左上顶点的坐标,其中i=1,2,…,n;
G2、对整个文档S中元素进行调整,使调整后的S={B1,B2,…,Bn}满足以下条件:
对于Bi和Bj,并且i<j,若Yi∈[Yj-a1,Yj+a2],其中a1和a2为正的常数,则满足Xi≤Xj,否则需满足Yi≤Yj;
G3、若步骤F中文档段落区域Bi被拆分为S’={P1,P2,…,Pk},按照步骤G2的要求去调整S’中元素的位置,得到调整后的S’={P1,P2,…,Pk},其中Pk表示调整后的第k个文档段落区域,k为正整数;
G4、对于每个被拆分的文档段落区域Bi,将采用步骤G3得到的调整后的S’中的元素全部加入到S中Bi所在的位置,并将Bi从S中删除,得到新的集合S” = {Q1,Q2,…,Qm},其中Qm表示调整后的第m个文档段落区域,m为正整数;
G5、采用Q1,Q2,…,Qm的顺序确定阅读文档段落区域的顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京多看科技有限公司,未经北京多看科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110302301.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种怠速转向功率补偿方法及控制系统
- 下一篇:一种立式叉车电动助力转向装置