[发明专利]一种基于配置文件和日志文件的跨组件数据流向审计方法和系统有效
| 申请号: | 202110340162.X | 申请日: | 2021-03-30 |
| 公开(公告)号: | CN113271220B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 马秉楠;王振宇;贾思宇 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
| 主分类号: | H04L41/04 | 分类号: | H04L41/04;H04L41/069;H04L41/0823;H04L41/14;H04L41/22;H04L67/06;H04L67/1097;H04L67/30;H04L9/40 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 配置文件 日志 文件 组件 数据 流向 审计 方法 系统 | ||
本发明涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。本发明通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。
技术领域
本发明属于大数据技术领域,具体提出一种基于大数据组件配置文件和日志文件的跨组件数据流向审计的方法和系统。
背景技术
以Hadoop为代表的大数据技术自推出以来,重点解决了分布式环境下利用通用服务器进行海量数据计算的各类痛点,随着云技术的推广,各个集群陆续从内网走向外网,因为缺乏原生的数据保护机制,且大数据组件种类多、搭配和组合多,导致数据层面屡次出现泄漏事件,虽然各个组件也陆续推出了各种保护措施,但是缺乏整体角度的数据使用情况审计,无法对整个集群的数据流转及运行情况进行安全评估。
数据流向不同于数据血缘,前者的重点在数据的流转过程,例如Kafka的订阅,本身不会产生新的数据关系,但是其被不同的用户订阅走的数据都需要进行追踪;数据血缘重点关注数据的衍生关系,并且囿于技术体系的不同,数据血缘的探究多在同一个组件中,一旦数据跨组件流转,尤其是在不同数据组件之间流转时,血缘关系很难获取,此外,因为不同的组件代表不同的处理过程,此时去追踪血缘也没有那么必要了。而数据流向的追踪对于数据安全,尤其是跟踪数据的使用情况,就显得非常重要。可以通过数据流向,跟踪每个不同的业务的具体处理逻辑,可以从不同的数据交互、业务逻辑交互中梳理出数据流转路径;可以通过数据流向发现业务的使用异常,例如一个新的数据流向的产生,以及一个既有数据流的中断,都一般是业务上产生了新变化或故障导致;可以通过数据流向情况,结合权限信息,发现一些漏洞,例如用户没有某个数据的权限,但是却拥有该数据的一个下游子集的权限,则必然会导致信息的泄露。
发明内容
本发明聚焦Hadoop生态下,采用轻量级侵扰方式,通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。
为实现上述目的,本发明采用的技术方案如下:
一种基于配置文件和日志文件的跨组件数据流向审计方法,包括以下步骤:
采集大数据平台中各个组件的配置文件和日志文件;
根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;
根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;
根据数据流向图进行数据流向的异常判定及告警。
进一步地,所述日志文件包括运行日志文件、审计日志文件。
进一步地,通过包含集群、服务、角色、实例四层结构的组件构建模型,实现任意大数据组件的全局统一描述,其中:
集群:对应不同的数据中心,任意一个独立的数据中心就是一个集群;
服务:对应不同的大数据组件;
角色:对应某个服务下的不同功能角色;
实例:是指某个具体的运行的进程,是配置文件的最小单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340162.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单向拉伸聚酰亚胺薄膜定位结构
- 下一篇:更换提示方法及电子设备





