[发明专利]一种面向多源异构数据归一化的方法及装置在审

专利信息
申请号: 202211321307.2 申请日: 2022-10-27
公开(公告)号: CN115618083A 公开(公告)日: 2023-01-17
发明(设计)人: 林飞;刘波;程红;易永波;古元;毛华阳;华仲峰 申请(专利权)人: 北京亚鸿世纪科技发展有限公司
主分类号: G06F16/906 分类号: G06F16/906;G06F16/901;G06F17/16;G06F18/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 100095 北京市海淀区高里*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 多源异构 数据 归一化 方法 装置
【说明书】:

一种面向多源异构数据归一化的方法及装置涉及信息技术领域。本发明由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成;通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率。

技术领域

本发明涉及信息技术领域。

背景技术

当前,各垂直行业,尤其是工业领域,如生产制造、能源化工、采矿冶金等行业中,生产单位和企事业主体,在运行中持续不断地产生大量的多源异构数据,这些数据分布在不同区域,不同的设备和系统中,并无交集也未被利用。

随着工业化和信息化的不断融合,对多源异构数据进行统一汇聚、统一分析、统一处理和统一使用的需求越来越迫切,实现多源异构数据的四个统一,将极大推进工业化和信息化两化融合,在提升企业生产、运营效率以及安全防护水平,降低成本等方面,具有重大意义。尤其能够将来自不同服务的多元异构数据进行聚类整合后,反馈给前端服务使前端服务形成关联性,从而整合成为服务链具有及其重要的意义。

在企业的生产制造、安全监测、营销管理等各领域和各环节中,产生海量的多源异构数据,随着工业化和信息化两化融合的推进和扩大,如何将这些海量的数据进行采集、规整和分析,消除数据孤岛,帮助企业加速和畅通数据流转,提升生产效率,掌握整体态势,都有重大意义。

但是,多源异构数据采集分析的难点是数据格式和内容参差不齐,没有统一的规范,即使将数据强行汇聚起来,也只能原样保存,并不能进行有效的关联分析。目前市场上也不乏多源异构数据的采集和分析方案,但现有方案普遍采用针对特定的场景和指定的数据,通过人工分析规则和手动导入实现。这种实现方式,一方面需要专业的分析人员长时间投入分析运营规则以及人工配置,效率很低;另一方面,当多源异构数据变更时,现有的方案无论在数据的接入还是分析处理环节,均无法有效应对变化,缺乏灵活性和可扩展性。

通过多元异构数据的聚类进行服务链编排的方法及装置针对上述问题,提出一种通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率,通过对多元异构数据的聚类后,反馈给服务端即可将前端服务有效的整合为一个服务链。

用到的现有技术说明

特征的聚类,本质上是针对键值的相似度计算。以下是共有技术中几种相似度计算方法的简单介绍:

1. 欧几里得距离

欧几里得度量也称欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

2. 皮尔逊相关系数

皮尔逊相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度,但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。

3. 余弦相似度

余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫余弦相似性。

4. Tanimoto系数即广义Jaccard相似系数

定义:广义Jaccard相似度,元素的取值可以是实数。又叫作谷本系数。关系:如果我们的x,y都是二值向量,那么Tanimoto系数就等同Jaccard距离。

不同的相似度计算方法试用的场景有所区别,余弦相似度用来计算变化趋势的一致性比较准确,欧几里得距离用来区分价值和数值水平比较准确。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211321307.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top