[发明专利]数据分割和变换方法与装置有效
| 申请号: | 201580067112.1 | 申请日: | 2015-11-11 |
| 公开(公告)号: | CN107004022B | 公开(公告)日: | 2021-08-17 |
| 发明(设计)人: | A·D·罗斯;G·巴布 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜;王英 |
| 地址: | 美国加*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 分割 变换 方法 装置 | ||
本文公开了与处理数据相关联的装置、方法、以及存储介质。在实施例中,装置可以包括数据预处理器,数据预处理器用于将与多个两端点对的单向关系相关联的标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载。在实施例中,分割操作可以包括将两端点对分割成多个组,其中每个组包括两端点对的多个分位数。可以描述和/或要求保护其它实施例。
相关申请
本申请要求享有于2015年1月9日提交的题为“DATA PARTITION ANDTRANSFORMATION METHODS AND APPARATUSES(数据分割和变换方法与装置)”的美国专利申请14/593,907的优先权。
技术领域
本公开涉及数据处理领域。更具体地,本公开涉及用于分割和/或变换大的数据集合(例如,网流(netflow)记录)的数据预处理器。
背景技术
本文提供的背景描述出于总体上呈现本公开的上下文的目的。除非本文另有指示,否则本节中描述的材料不是本申请中权利要求书的现有技术,并且不应因包含在本节中而被认为是现有技术。
“大数据”是指数据集的任何集合,其如此庞大且复杂而使得使用传统的数据处理应用对它们进行处理变得困难。使用传统的关系数据库管理系统、桌面统计、和/或可视化程序套件常常难以对“大数据”起作用。相反,常常需要在数十、数百或甚至数千个服务器上运行的大规模并行软件。
例如,十多年来,网络流(也被称为“网流”、“s流”)已经是网络业务的普遍核算记录。网流经由以下项提供关于网络上的通信的信息:源互联网协议(IP)地址、目的IP地址、协议、开始时间、分组的数量、以及字节计数。它们在历史上在企业中用于网络容量规划和应用性能故障排除。随着时间的推移,它们也被认为是用于识别信息安全威胁和攻击的合理方法。然而,由于随着IP可寻址设备的数量增加网络变得越来越大,企业数据或企业间数据的量变得如此大而使得利用传统的数据系统/工具对这些数据进行分析是不切实际的。给出企业中的可能的网流记录的规模的概念,对于财富100强企业而言,每天在企业网络的互联网服务提供商(ISP)层产生超过30亿个网流记录并不罕见,并且如果包括局域网(内联网)数据,则该数字显著增加得更大。由于记录的性质,该问题随着网流(和其它大数据应用)典型地具有偏斜的值分布(跨IP地址)而进一步复杂化。
附图说明
通过结合附图的以下具体实施方式将容易理解实施例。为了有助于该描述,同样的附图标记指定同样的结构元素。在附图的图中,实施例以示例而非限制的方式示出。
图1示出了根据各种实施例的用于处理和分析大数据的计算布局。
图2示出了根据各种实施例的用于将两个端点的单向关系的标量数据变换为两端点对的方向性数据的示例过程。
图3示出了根据各种实施例的用于创建针对端点对的索引键矩阵和将数据集合分割成服从并行处理的工作负载的分割键元组矩阵的示例过程。
图4示出了根据各种实施例的用于确定多个组(每个组具有多个分位数)以用于将方向性数据分割成服从并行处理的工作负载的示例过程。
图5示出了根据各种实施例的使用经确定的具有分位数的组来生成服从并行处理的工作负载的示例过程。
图6示出了根据各种实施例的适于用来实践本公开的方面的示例计算系统。
图7示出了根据所公开的实施例的具有用于实践参考图1-5描述的方法的指令的存储介质。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580067112.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





