[发明专利]自动题库同步方法以及装置在审
申请号: | 201910801107.9 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110555077A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 梁涌;吴峰;郭伟 | 申请(专利权)人: | 上海易点时空网络有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182 |
代理公司: | 11541 北京卓唐知识产权代理有限公司 | 代理人: | 唐海力 |
地址: | 200125 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 题库数据库 临时文件 题库数据 申请 分布式文件系统 读取 答题情况统计 设置服务器 数据库同步 定时自动 目标数据 人工参与 人工操作 数据仓库 数据同步 同步数据 同步效率 业务规划 业务运营 题库 考题 写入 仓库 筛选 练习 便利 分析 | ||
本申请公开了一种自动题库同步方法以及装置。该方法包括分批量读取题库数据库,经过筛选后得到临时文件数据;将所述临时文件数据写入到分布式文件系统,以使题库数据从所述题库数据库同步到目标数据仓库中。本申请解决了题库数据进行同步时需要人工操作而同步效率低下的技术问题。通过本申请能够将所有用户的考题练习数据从现有数据库同步到数据仓库中,设置服务器定时任务,能够实现定时自动同步数据而不需要人工参与操作。数据同步到Hadoop中,为业务运营对用户的答题情况统计分析和业务规划提供便利。
技术领域
本申请涉及大数据处理领域,具体而言,涉及一种自动题库同步方法以及装置。
背景技术
由于业务分析需求,题库需要从源数据库同步至另一数据库。
发明人发现,现有的同步方法需要人工操作,效率低。
针对相关技术中题库数据进行同步时需要人工操作而同步效率低下的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种自动题库同步方法以及装置,以解决题库数据进行同步时需要人工操作而同步效率低下的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种自动题库同步方法。
根据本申请的自动题库同步方法包括:分批量读取题库数据库,经过筛选后得到临时文件数据;将所述临时文件数据写入到分布式文件系统,以使题库数据从所述题库数据库同步到目标数据仓库中。
进一步地,分批量读取题库数据库,经过筛选后得到临时文件数据包括:
通过调用Hive接口,在分布式文件系统中预先创建数据表用于存储数据;
计算所述题库数据库的数据量得到数据总行数;
设定分批读取的数据量大小进行分批读取数据。
进一步地,分批量读取题库数据库,经过筛选后得到临时文件数据,还包括:
去除题库数据库中的非必要数据信息,将有用数据信息按照所述分布式文件系统的数据文件格式拼接后按行写入临时文件。
进一步地,分批量读取题库数据库,经过筛选后得到临时文件数之后,还包括:
对所述临时文件数进行压缩后再同步到分布式文件系统的服务器。
进一步地,将所述临时文件数据写入到分布式文件系统,以使题库数据从所述题库数据库同步到目标数据仓库中,包括:
通过调取分布式文件系统提供的数据文件上传接口,将经过压缩后的题库数据文件上传到布式文件系统进行保存。
为了实现上述目的,根据本申请的另一方面,提供了一种自动题库同步装置。
根据本申请的自动题库同步装置包括:分批处理和筛选模块,用于分批量读取题库数据库,经过筛选后得到临时文件数据;写入模块,用于将所述临时文件数据写入到分布式文件系统,以使题库数据从所述题库数据库同步到目标数据仓库中。
进一步地,所述分批处理和筛选模块,用于
通过调用Hive接口,在分布式文件系统中预先创建数据表用于存储数据;
计算所述题库数据库的数据量得到数据总行数;
设定分批读取的数据量大小进行分批读取数据。
进一步地,装置还包括:筛选模块,用于
去除题库数据库中的非必要数据信息,将有用数据信息按照所述分布式文件系统的数据文件格式拼接后按行写入临时文件。
进一步地,装置还包括:压缩模块,用于
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易点时空网络有限公司,未经上海易点时空网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801107.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据打标方法、处理方法以及装置
- 下一篇:分布式ID生成