[发明专利]电子文档的拆分方法、装置、设备及介质在审
申请号: | 201810146345.6 | 申请日: | 2018-02-12 |
公开(公告)号: | CN110162764A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 林得苗 | 申请(专利权)人: | 北京庖丁科技有限公司 |
主分类号: | G06F17/25 | 分类号: | G06F17/25;G06F17/21 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 100091 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子文档 页面属性信息 纸质文档 转换 | ||
本发明公开了一种电子文档的拆分方法、装置、设备及介质,用以提高将多份纸质文档转换为多份电子文档的效率。所述电子文档的拆分方法,包括:获取所述电子文档中每个页面的页面属性信息;根据所述页面属性信息,在所述电子文档中添加拆分标记;基于所述拆分标记,将所述电子文档拆分为多个子电子文档。
技术领域
本发明涉及计算机技术领域,尤其涉及一种电子文档的拆分方法、装置、设备及介质。
背景技术
将纸质文档转换为电子文档,可以通过对纸质文档扫描的方式实现,也即将纸质文档扫描为电子文档。例如,可以将纸质文档扫描为便携式文档格式(Portable DocumentFormat,PDF)文档。
目前,在将多份纸质文档转换为多份电子文档时,通常可以采用先全部扫描再拆分的方式,也可以采用逐份扫描的方式。具体来说,先全部扫描再拆分的方式,即先将多份纸质文档扫描为一个电子文档,然后人工将扫描得到的电子文档拆分为不同的部分,每个部分对应一份原始纸质文档,得到每份纸质文档对应的电子文档。而逐份扫描的方式,是指逐份扫描每一份纸质文档,得到每份纸质文档对应的电子文档。
上述两种方式,虽然都可以将多份纸质文档转换为多份电子文档,但是在纸质文档的份数较多时,均效率低下。
发明内容
本发明实施例提供了一种电子文档的拆分方法、装置、设备及介质,用以提高将多份纸质文档转换为多份电子文档的效率。
第一方面,本发明实施例提供一种电子文档的拆分方法,包括:
获取电子文档中每个页面的页面属性信息;
根据页面属性信息,在电子文档中添加拆分标记;
基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
在第一方面的一些实施例中,根据页面属性信息,在电子文档中添加拆分标记,包括:根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;在目标页面与前一页面之间的文档位置处添加拆分标记,其中,目标页面为电子文档中除首页之外的任一页面。
在第一方面的一些实施例中,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
在第一方面的一些实施例中,页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档,包括:在确定目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
在第一方面的一些实施例中,页面属性信息包括页面中字体的属性信息,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:根据目标页面中字体的属性信息,确定目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
第二方面,本发明实施例提供一种电子文档的拆分装置,包括:
获取单元,用于获取电子文档中每个页面的页面属性信息;
标记添加单元,用于根据页面属性信息,在电子文档中添加拆分标记;
拆分单元,用于基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京庖丁科技有限公司,未经北京庖丁科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810146345.6/2.html,转载请声明来源钻瓜专利网。