[发明专利]基于大数据的数据自动抽取系统在审
申请号: | 201810603056.4 | 申请日: | 2018-06-12 |
公开(公告)号: | CN109101521A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 陈华;郁东风;吴途;毛晨杰 | 申请(专利权)人: | 江苏开拓信息与系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/30 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 张欢勇 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于大数据的数据自动抽取系统,包括用于存储待抽取数据的数据源服务器;用于提供可视化配置界面的客户端;包括有配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块的数据抽取服务器用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中的日志存储模;用于存储抽取之后的结果数据的数据存储服务器。采用上述技术方案后,配置存储模块实现了一次配置可以多次使用。日志存储模解决了无法自动记录日志的问题。数据对比模块保证了抽取完成后能够自动验证数据量的准确性。 | ||
搜索关键词: | 配置存储 数据对比模块 抽取 日志存储 自动抽取 大数据 存储 数据存储服务器 抓取 数据源服务器 抽取数据 多次使用 结果数据 模块实现 全量抽取 数据抽取 相关信息 自动记录 自动验证 次配置 可视化 客户端 数据量 信息表 日志 记录 服务器 传递 配置 保证 | ||
【主权项】:
1.一种基于大数据的数据自动抽取系统,其特征在于,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器;数据源服务器,用于存储待抽取数据;客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置;数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务;全量抓取模块,根据客户端的配置要求每次将数据源服务器中的数据全部抽取到数据存储服务器中,每次抽取的数据结果会直接覆盖在数据存储服务器的数据表中;增量抓取模块,根据客户端的配置要求每次将数据源服务器中的新增、修改、删除的数据抽取到数据存储服务器中,每次抽取的数据结果会直接添加在数据存储服务器的数据表中;数据对比模块,比对抽取前后的数据量;日志存储模块,用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中;数据存储服务器,用于存储抽取之后的结果数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏开拓信息与系统有限公司,未经江苏开拓信息与系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810603056.4/,转载请声明来源钻瓜专利网。