[发明专利]用于连续图更新和计算的平台有效
申请号: | 201710239772.4 | 申请日: | 2012-04-05 |
公开(公告)号: | CN107315760B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | F·杨;L·周;M·吴;A·克罗拉;R·程;Y·苗;X·翁;J·洪 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/23;G06F16/11 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦;胡利鸣 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 连续 新和 计算 平台 | ||
本发明涉及用于连续图更新和计算的平台。连续流数据(例如,消息、推特(tweet))通过平台的各摄取节点来接收。摄取节点可分析数据以创建图更新的事务,将序列号分配给该事务,并且将具有该序列号的图更新分发到平台的图节点。图节点可存储来自摄取节点的图更新,并且随后摄取节点可在进度表中报告图更新进度。可基于该进度表来拍摄快照,并且随后可实现图挖掘计算。可支持容错和衰减,并且可允许增量式扩展以应对增加的更新速度和计算需求。
本发明专利申请是国际申请号为PCT/CN2012/073529,国际申请日为2012年4月5日,进入中国国家阶段的申请号为201280072231.2,名称为“用于连续图更新和计算的平台”的发明专利申请的分案申请。
技术领域
本发明涉及计算机网络数据处理,更具体地,涉及用于连续图更新和计算的平台
背景技术
日益流行的在线服务(例如,和)提供了来自各个用户在相对短时间量内的更新信息。这些服务上可获得的信息被持续生成并且比大多数静态网页在时间上敏感得多。例如,突发新闻出现并且由这些在线服务中的某些快速传播,伴随着新的流行活动或热点话题不断地从物理世界中的实时事件产生。尽管每一消息或更新可能较小且包含有限的文本内容,但数据流可包含用户、话题和消息之间的丰富连接,并且这些连接可用来生成重要的社会现象。
发明内容
分布式设计可采用数据流来构建持续变化的图结构以捕捉该流中存在的关系。这些设计可将图挖掘与图结构的图更新解耦。分布式系统可将图结构元数据与图结构的应用数据分开。可以实现时期提交协议以生成图结构的全局一致的快照。基于这些一致的快照,可以执行图挖掘算法以从该流中提取及时的洞察。
提供本概述是为了以简化的形式介绍将在以下具体实施方式中进一步描述的概念选择。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
参考附图来描述具体实施方式。在附图中,附图标记最左边的数字标识该附图标记首次出现于其中的附图。在不同的附图中使用相同的附图标记指示类似或相同的项。
图1是处理流送数据的说明性架构的示意图。
图2是用来示出跨图节点的分区创建一致的快照的示例的示意图。
图3是处理流送数据的说明性过程的流程图。
图4是产生一致分布的快照的说明性过程的流程图。
图5是执行图挖掘计算的说明性过程的流程图。
图6是实现增量式图挖掘计算的说明性算法。
图7是实现摄取节点中的容错的说明性过程的流程图。
图8是可在图1所示的环境中部署的说明性计算设备的框图。
具体实施方式
概览
数据流(例如,消息、推特(tweet))通过平台的一组摄取节点来接收。该组摄取节点中的一个摄取节点可分析数据流的每一传入馈源(例如,推特及其关联上下文)以创建图更新的事务,向该事务分配序列号,并且将具有该序列号的图更新分发到平台的多个图节点。图节点可提供具有增强的图支持的分布式存储器中密钥/值存储。这些图节点中的每一个可存储与关联应用数据分开的数据流的图结构元数据。
另外,在图节点存储这些图更新之后,摄取节点可在进度表中报告图更新进度。快照可基于进度表被周期性地拍摄。该进度表可用作逻辑时钟以定义时期的结束。在该时期内,可遵循预定次序在图节点中执行所有存储的局部图更新。图更新的执行可触发对新快照的增量式图计算,以更新关联应用数据并且从该数据流提取及时的洞察。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710239772.4/2.html,转载请声明来源钻瓜专利网。