[发明专利]一种基于数据库历史快照的无效数据清理方法有效
申请号: | 202211031439.1 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115422175B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 林韶宾;娄帅;郑红云;党中华;张文凤;司同;龙禹;王佳明;林禹 | 申请(专利权)人: | 北京万里开源软件有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/242 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 陈姣姣 |
地址: | 100000 北京市丰台区汽车博物*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据库 历史 快照 无效 数据 清理 方法 | ||
本发明提供了一种基于数据库历史快照的无效数据清理方法,包括:采集分布式系统的源数据库中的全部数据库历史快照;对采集到的全部分布式数据库历史快照进行数据解析,得到第一数据表集合;获取待清理分布式数据库中的未识别数据,得到第二数据表集合,在第二数据表集合中按序选择第二数据表,若当前选择的第二数据表在第一数据表集合中不存在时,对当前选择的第二数据表进行删除,直至在第二数据表集合中的所有第二数据表均在第一数据表集合中存在时结束。
技术领域
本发明涉及数据库数据处理技术领域,尤其涉及一种基于数据库历史快照的无效数据清理方法。
背景技术
随着互联网技术的发展,很多行业都已经进入了海量数据时代,当前涉及到大数据的技术大多集中在数据的挖掘和利用上。大数据的挖掘必然以存在大量的数据为前提,但数据量过大显然也会对挖掘和利用带来不小的困难。在当代信息爆炸的背景下,数据量急剧增加的同时也伴随着数据的快速更新,换言之,在掌握最新数据的同时,还必须及时的清理过时或失效的数据。否则,不仅会使数据量过于庞大导致数据挖掘的难度大幅增加,更重要的是有可能直接导致数据分析的错误。目前在清理失效数据时,常用的做法是在数据库中根据失效条件或时间条件数据库中直接查找失效数据并进行清理,这样的做法将会导致在查找过程中出现大量工作量,而大量工作量将会导致容错率降低,从而影响失效数据清理过程,因此,亟需一种基于数据库历史快照的无效数据清理方法,用于通过数据库历史快照的方式,快速识别出数据库中的无效数据并进行清理,从而有效降低了根据失效条件或时间条件在数据库中直接查找失效数据的工作量。
发明内容
针对现有技术的不足,本发明提供一种基于数据库历史快照的无效数据清理方法,用于通过数据库历史快照的方式,快速识别出数据库中的无效数据并进行清理,从而有效降低了根据失效条件或时间条件在数据库中直接查找失效数据的工作量。
一种基于数据库历史快照的无效数据清理方法,包括:
采集源数据库中的全部数据库历史快照;对采集到的全部数据库历史快照进行数据解析,得到第一数据表集合;获取待清理数据库中的未识别数据,得到第二数据表集合,在第二数据表集合中按序选择第二数据表,若当前选择的第二数据表在第一数据表集合中不存在时,对当前选择的第二数据表进行删除,直至在第二数据表集合中的所有第二数据表均在第一数据表集合中存在时结束。
作为本发明的一种实施例,对采集到的全部数据库历史快照进行数据解析,得到第一数据表集合,包括:对采集到的全部数据库历史快照进行数据解析,得到每一数据库历史快照对应的文件信息以及文件信息对应的路径信息;根据文件信息以及文件信息对应的路径信息生成每一数据库历史快照对应的数据表;整合所有数据库历史快照对应的数据表,得到第一数据表集合。
作为本发明的一种实施例,获取待清理数据库中的未识别数据,得到第二数据表集合,包括:获取源数据库中所有被标记为未识别数据的数据表,建立待清理数据库;整合待清理数据库中被标记为未识别数据的数据表,得到第二数据表集合。
作为本发明的一种实施例,获取源数据库中所有被标记为未识别数据的数据表,包括:获取源数据库中的所有待识别数据表;分别采集每一待识别数据表预设时间内的读取时间数据和数据表读取对象数据;根据待识别数据表的读取时间数据确定对应待识别数据表的活跃度;根据待识别数据表的数据表读取对象数据确定对应待识别数据表的重要度;根据每一待识别数据表的活跃度和重要度进行数据有效值分析,得到每一待识别数据表的数据有效值;若当前待识别数据表的数据有效值小于预设数据有效值阈值,将当前待识别数据表进行未识别数据标记。
作为本发明的一种实施例,获取源数据库中的所有待识别数据表,包括:获取用户输入的标识指令语句,对标识指令语句进行解析得到有效数据标识信息;其中,标识指令语句为用户基于其预先设定的有效数据标识信息结合对应的结构化查询语言SQL命令生成的相应SQL语句;在源数据库的可见数据中查询与有效数据标识信息无法匹配的数据表,得到源数据库中的所有待识别数据表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京万里开源软件有限公司,未经北京万里开源软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211031439.1/2.html,转载请声明来源钻瓜专利网。