[发明专利]一种数据处理方法、装置、计算机设备和存储介质在审
申请号: | 202111547165.7 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114461670A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 贾旭 | 申请(专利权)人: | 江西猛犸能源有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/28;G06F16/23;G06F9/54 |
代理公司: | 成都宏田知识产权代理事务所(普通合伙) 51337 | 代理人: | 石小丽 |
地址: | 337099 江西省萍乡市*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本发明适用于计算机技术领域,提供了一种数据处理方法、装置、计算机设备和存储介质,包括:响应于数据的变动操作,将数据写入kafka消息队列的存储结构中,得kafka消息数据;将kafka消息数据写入至预设的制表符分隔值格式文件中;将制表符分隔值格式文件中的kafka消息数据按照预设时间阈值定时写入预设的ReplacingMergeTree引擎的clickhouse物理表。本发明充分利用clickhouse高效的查询性能与ReplacingMergeTree引擎的覆盖更新特性,保证了数据仓库中数据实时更新,解决了业务数据实时向分析性数据库写入的问题,为海量数据查询和报表分析提供基础。
技术领域
本发明属于计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
在海量数据统计中,我们一般需要查询大量的数据来进行数据统计,而传统的关系型数据库比如MySQL对于海量数据查询相应会很慢,同时会对服务器造成高负载压力,严重时可能造成数据库宕机。
clickhouse具有天然支持海量数据查询的优势,但是不支持频繁的写入更新,目前将MySQL同步到clickhouse还无法实现实时同步,一般是在clickhouse中创建MySQL数据库代理表,然后创建clickhouse物理表,进而利用SQL语句定时将MySQL中的数据批量写入到clickhouse物理表中,另外,每天执行一次,写入时是根据数据的创建时间写入昨天数据,这样存在的问题是,如果写入了创建时间早于昨天的数据,则数据无法正常写入,二是如果后期修改了之前的数据,也无法对之前的数据进行更新。
发明内容
本发明实施例的目的在于提供一种数据处理方法,旨在解决现有数据同步方法存在数据无法正常写入以及数据无法实时更新的问题。
本发明实施例是这样实现的,一种数据处理方法,包括:
响应于数据的变动操作,将所述数据写入kafka消息队列的存储结构中,得kafka消息数据;
将所述kafka消息数据写入至预设的制表符分隔值格式文件中;
将所述制表符分隔值格式文件中的kafka消息数据按照预设时间阈值定时写入预设的ReplacingMergeTree引擎的clickhouse物理表。
本发明实施例的另一目的在于一种数据处理装置,包括:
第一写入单元,用于响应于数据的变动操作,将所述数据写入kafka消息队列的存储结构中,得kafka消息数据;
第二写入单元,用于将所述kafka消息数据写入至预设的制表符分隔值格式文件中;以及
第三写入单元,用于将所述制表符分隔值格式文件中的kafka消息数据按照预设时间阈值定时写入预设的ReplacingMergeTree引擎的clickhouse物理表。
本发明实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述数据处理方法的步骤。
本发明实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述数据处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西猛犸能源有限公司,未经江西猛犸能源有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111547165.7/2.html,转载请声明来源钻瓜专利网。