[发明专利]一种实现电子材料数字化流程自动化的方法在审
申请号: | 202110294010.0 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113157642A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 石园;王家乐;张晓明 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F16/16;G06F16/178;G06F16/182 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 电子 材料 数字化 流程 自动化 方法 | ||
本发明公开了一种实现电子材料数字化流程自动化的方法,属于电子信息化技术领域。本发明的实现电子材料数字化流程自动化的方法包括以下步骤:S1、获取电子文件;S2、判断电子文件类型;S3、电子文件预处理;S4、生成可搜索PDF文件;S5、提取结构化目录数据;S6、结构化目录数据入库;S7、电子文件特定规则重新命名;S8、电子文件上传;S9、电子文件与结构化目录数据自动连接。该发明的实现电子材料数字化流程自动化的方法能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题,具有很好的推广应用价值。
技术领域
本发明涉及电子信息化技术领域,具体提供一种实现电子材料数字化流程自动化的方法。
背景技术
纸质档案扫描、电子文件数字化是档案大数据库建设最基础的工作,其操作流程包括纸质档案扫描、电子文件预处理、电子文件分类、电子文件目录数据提取入库、档案数据挂接等步骤。整个处理过程因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,加大了误操作和数据不一致的出现几率,电子文件和文件目录数据也无法快速入库挂接。
电子文件数字化操作流程包括电子文件预处理、电子文件分类、电子文件目录数据提取入库、电子文件上传、档案数据挂接等步骤。因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,容易出现系统错误或者人工失误造成数据不一致的问题,有待进一步的改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题的实现电子材料数字化流程自动化的方法。
为实现上述目的,本发明提供了如下技术方案:
一种实现电子材料数字化流程自动化的方法,包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
作为优选,步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。
作为优选,PDF生成组件基于脚本实现office格式文件转换成PDF文件。
其中Windows环境下基于Microsoft、Office、Interop、Word类库编写PowerShell脚本实现。Linux环境下基于libreoffice基础组件编写shell脚本实现。
作为优选,步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。
作为优选,步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。
作为优选,步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110294010.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种滑模台车及其施工方法
- 下一篇:一种风电场的年发电量预测方法和系统