[发明专利]一种面向多源异构数据归一化的方法及装置在审
申请号: | 202211321307.2 | 申请日: | 2022-10-27 |
公开(公告)号: | CN115618083A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 林飞;刘波;程红;易永波;古元;毛华阳;华仲峰 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/901;G06F17/16;G06F18/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多源异构 数据 归一化 方法 装置 | ||
一种面向多源异构数据归一化的方法及装置涉及信息技术领域。本发明由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成;通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率。
技术领域
本发明涉及信息技术领域。
背景技术
当前,各垂直行业,尤其是工业领域,如生产制造、能源化工、采矿冶金等行业中,生产单位和企事业主体,在运行中持续不断地产生大量的多源异构数据,这些数据分布在不同区域,不同的设备和系统中,并无交集也未被利用。
随着工业化和信息化的不断融合,对多源异构数据进行统一汇聚、统一分析、统一处理和统一使用的需求越来越迫切,实现多源异构数据的四个统一,将极大推进工业化和信息化两化融合,在提升企业生产、运营效率以及安全防护水平,降低成本等方面,具有重大意义。尤其能够将来自不同服务的多元异构数据进行聚类整合后,反馈给前端服务使前端服务形成关联性,从而整合成为服务链具有及其重要的意义。
在企业的生产制造、安全监测、营销管理等各领域和各环节中,产生海量的多源异构数据,随着工业化和信息化两化融合的推进和扩大,如何将这些海量的数据进行采集、规整和分析,消除数据孤岛,帮助企业加速和畅通数据流转,提升生产效率,掌握整体态势,都有重大意义。
但是,多源异构数据采集分析的难点是数据格式和内容参差不齐,没有统一的规范,即使将数据强行汇聚起来,也只能原样保存,并不能进行有效的关联分析。目前市场上也不乏多源异构数据的采集和分析方案,但现有方案普遍采用针对特定的场景和指定的数据,通过人工分析规则和手动导入实现。这种实现方式,一方面需要专业的分析人员长时间投入分析运营规则以及人工配置,效率很低;另一方面,当多源异构数据变更时,现有的方案无论在数据的接入还是分析处理环节,均无法有效应对变化,缺乏灵活性和可扩展性。
通过多元异构数据的聚类进行服务链编排的方法及装置针对上述问题,提出一种通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率,通过对多元异构数据的聚类后,反馈给服务端即可将前端服务有效的整合为一个服务链。
用到的现有技术说明
特征的聚类,本质上是针对键值的相似度计算。以下是共有技术中几种相似度计算方法的简单介绍:
1. 欧几里得距离
欧几里得度量也称欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
2. 皮尔逊相关系数
皮尔逊相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度,但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。
3. 余弦相似度
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫余弦相似性。
4. Tanimoto系数即广义Jaccard相似系数
定义:广义Jaccard相似度,元素的取值可以是实数。又叫作谷本系数。关系:如果我们的x,y都是二值向量,那么Tanimoto系数就等同Jaccard距离。
不同的相似度计算方法试用的场景有所区别,余弦相似度用来计算变化趋势的一致性比较准确,欧几里得距离用来区分价值和数值水平比较准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211321307.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置