[发明专利]一种用于数据中台的数据分析方法及系统有效
| 申请号: | 202211420690.7 | 申请日: | 2022-11-15 |
| 公开(公告)号: | CN115470788B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 杨琨;葛大伟;李健;刘奎阳;何亘;段国强;杨立寨;王振宇;汪进;王凯飞;何立军;李辰辉;余纪良;苏建新 | 申请(专利权)人: | 北京云成金融信息服务有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/215 |
| 代理公司: | 北京睿博行远知识产权代理有限公司 11297 | 代理人: | 刘聪超 |
| 地址: | 100031 北京市西城*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 数据 分析 方法 系统 | ||
1.一种用于数据中台的数据分析方法,其特征在于,包括:
步骤1:获取数据中台接收到的数据,对所述数据进行状态预处理;
步骤2:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
步骤3:提取特征数据的第一特征词进行关联分析;
步骤4:提取功能数据的第二特征词进行功能分析;
步骤5:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常;
其中,获取数据中台接收到的数据,对所述数据进行状态预处理,包括:
将数据中台在预设操作行为下接收到的每个数据依次输入到数据熵值计算模型,得到每个数据的数据熵值;
根据数据中台接收数据的时间,对所有数据熵值进行时间排序,并得到每两个相邻数据的熵值差;
提取熵值差大于预设熵值差的第一相邻数据,并剔除所述第一相邻数据中的后一个数据,保留所述第一相邻数据中的前一个数据;
提取熵值差小于或等于预设熵值差的第二相邻数据并保留;
基于保留的数据,构建数据链,并按照数量相等原则将所述数据链划分为若干数据子链;
其中,基于数据属性将状态预处理后的数据划分为功能数据以及特征数据,包括:
构建功能区域以及特征区域,并将所有数据子链放入所述功能区域;
获取每个数据子链的数据内容,输入到数据子链属性指数计算模型,得到每个数据子链的属性指数;
基于预设功能属性指数范围,对超出预设功能属性指数范围的属性指数相对应的数据子链赋换区标记,将所有带有换区标记的数据子链转移到特征区域,得到特征数据;
将所述功能区域的剩余数据子链所对应的数据作为功能数据;
其中,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,包括:
将功能数据的每个第三子链的数据功能类型以及特征数据的关联拓扑图输入到数据子链-网模拟模型,得到数据模拟网;
对所述数据模拟网进行异常检测,确定数据中台接收到的数据中存在的数据异常。
2.根据权利要求1所述的方法,其特征在于,提取特征数据的第一特征词进行关联分析,包括:
获取与所述特征数据对应的第一子链,并确定每个第一子链的源数据;
根据每个第一子链对应源数据中每个第一数据的嵌入表示,构建得到对应源数据的特征向量;
基于对应源数据的特征向量以及预设向量的比较,确定对应源数据的差异类型,并将差异类型相同的第一子链进行组合,构建得到若干个数据子链集合;
确定每个数据子链集合中每个第二子链的头部数据以及尾部数据,得到每个第二子链的头部数据的第一特征词以及对应尾部数据的第一特征词;
依次将每个第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词进行贡献度分析,选取贡献度数值最大的作为第一贡献度;
若第一贡献度大于或等于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做内关联标记;
若第一贡献度小于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据不关联,并做外关联标记;
将同个数据子链集合中的每个有外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据进行贡献度分析,选取贡献度数值最大的作为第二贡献度;
若第二贡献度大于或等于第二预设关联贡献度,则所述第二贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做外关联成功标记;
基于不同数据子链集合所对应的内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量,输入到子链关联模型,得到关联拓扑图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云成金融信息服务有限公司,未经北京云成金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211420690.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





