[发明专利]一种基于文档表格文本提取方法在审
| 申请号: | 202211197789.5 | 申请日: | 2022-09-29 |
| 公开(公告)号: | CN115496043A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 孙涛;马国华;赵博;崔力飞;张兴隆;韩丽霞;王云 | 申请(专利权)人: | 鼎蓝惠民信息技术(西安)有限公司 |
| 主分类号: | G06F40/174 | 分类号: | G06F40/174;G06F40/18;G06F16/35 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
| 地址: | 710061 陕西省西安市*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文档 表格 文本 提取 方法 | ||
本发明公开了一种基于文档表格文本提取方法,首先将待处理的word文档上传到系统服务器,系统服务器根据导入文件个数随机给每个文件分配一个文件编号,系统服务器将文件编号、文件名称、文件大小、文件存放位置、文件格式存放到数据库中;然后创建目标文件excel并初始化;通过文件编号从数据库中获取word文档存放位置、文件名称、文件格式在内的信息并写入目标文件Excel中;利用Java读取数据流的方式获得原word文档中所有的表格内容;然后填充,循环执行,直到将原word文件循环完毕;最后将目标文件excel导出。本发明解决了现有技术中存在的人工整合工作量较大、时间紧、效率低以及准确性较差的问题。
技术领域
本发明属于数据质量检测技术领域,具体涉及一种基于文档表格文本提取方法。
背景技术
基于政务服务评估指标体系、国家基本目录及实施清单要素标准要求,精益化梳理过程中,不同事项需要的办事申请表模板不尽相同,不同部门均有自己定制化要求,群众办事需填写各种表单,基本信息重复填写,费事费力,导致办事效率低、办事体验感极差。现在需要将不同格式申请表整合为一份,提取公共部分,保留个性化信息。
目前纯人工整合申请表工作量较大、时间较紧,新老员工工作效率相差较大,缺少经验继承,结果分享等方法和工具;缺少数据工作指引、来源查找工具,缺少数据结果审核、纠错等工具,共享难,改造难,导致行政效能改革缓慢,不利于营商环境的优化。
发明内容
本发明的目的是提供一种基于文档表格文本提取方法,解决了现有技术中存在的人工整合工作量较大、时间紧、效率低以及准确性较差的问题。
本发明所采用的技术方案是,一种基于文档表格文本提取方法,具体按照以下步骤实施:
步骤1、将待处理的word文档上传到系统服务器,系统服务器根据导入文件个数随机给每个文件分配一个文件编号,系统服务器将文件编号、文件名称、文件大小、文件存放位置、文件格式存放到数据库中;
步骤2、创建目标文件excel,并初始化;
步骤3、通过文件编号从所述步骤1的数据库中获取步骤1中所述的word文档存放位置、文件名称、文件格式在内的信息;
步骤4、将通过步骤3获取的文件名称写入步骤2中所述的目标文件Excel中;
步骤5、利用Java读取数据流的方式通过步骤3获取的文件存放路径获得步骤1中的原word文档中所有的表格内容;
步骤6、将步骤5中所述的表格内容按照业务规则分为“表单项名称”、“选项名称”、“单位名称”三类,然后分别填充到步骤2所述的目标Excel中的第三行开始的列标columnIndex、columnIndex+1、columnIndex+2对应的单元格中;
步骤7、将步骤2初始化定义的列标columnIndex赋值为columnIndex+3,继续从步骤3~步骤6开始循环执行,直到将步骤1中所上传的原word文件循环完毕;
步骤8、将所述步骤2中的目标文件excel以“x份表单提取+时间戳.xls”的命名方式导出。
本发明的特点还在于,
步骤2具体按照以下步骤实施:
步骤2.1、创建目标文件excel,行和列暂不填充,为后面步骤做准备;
步骤2.2、自定义目标文件excel的起始列标columnIndex初始值为0,其他列列标依次+1的方式进行赋值;
步骤2.3、自定义目标文件excel的起始行标rowIndex初始值为3,其他行依次+1的方式进行赋值;
步骤4具体按照以下步骤实施:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎蓝惠民信息技术(西安)有限公司,未经鼎蓝惠民信息技术(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211197789.5/2.html,转载请声明来源钻瓜专利网。





