[发明专利]用于对图数据流中的对象分类的方法有效

专利信息
申请号: 201180052233.0 申请日: 2011-03-30
公开(公告)号: CN103189836A 公开(公告)日: 2013-07-03
发明(设计)人: C·阿加瓦尔 申请(专利权)人: 国际商业机器公司
主分类号: G06F7/00 分类号: G06F7/00
代理公司: 北京市中咨律师事务所 11247 代理人: 张亚非;于静
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 数据流 中的 对象 分类 方法
【说明书】:

技术领域

发明涉及大规模图流(graph stream)的分类。

背景技术

在机器学习中,分类是将类别标签指派给输入对象。分类发生于若干领域(诸如,化学及生物数据、web及通信网路)的情境下。作为示例,web查询主题分类/归类涉及基于查询的主题将web搜寻查询(例如,输入对象)指派给一个或多个预定义的类别(例如,类别标签)。举例而言,发出web查询“苹果”的用户可能期望看到与水果苹果相关的网页,或其可能更愿意看到与该计算机公司相关的产品或新闻。可根据由一查询分类算法预测的种类来对搜寻结果页进行分组。

许多数据域(诸如,化学数据、生物数据及web)被结构化为图。在化学及生物领域中,可从适度的概率库取得图的节点,且假定数据集具有适度的大小。另一方面,可在大规模的基础节点全域上定义web图、通信网络及社交网络。具有107以上的节点的图可含有多达1013个边,且由此被视为大规模的。这些节点可对应于web图中的URL地址、通信网络中的IP地址或社交网络中的用户标识符。这些URL地址、IP地址及用户标识符之间的连结为边。

在流传输应用中,将在某一外部环境中产生的数据异步地推送至处理此信息的服务器。流传输应用的特征为以及时及响应的方式处理高容量数据流的能力。大规模图流可包括用户在社交网络中的通信模式(pattern)、所有用户的浏览模式或通信网络上的侵入通信流(traffic)。

当大规模图呈流形式时,这限制了可用以挖掘结构信息以用于未来分析的算法的种类。举例而言,流约束仅允许在数据上执行一遍。此外,图的边可能在数据流中无序地到达。图的大规模尺寸也对有效提取与分类相关的信息产生挑战。举例而言,难以在图数据中存储关于大量相异边的概要信息。此外,由于结构行为是由大量相异边的组合控制的,因此子结构判定问题的复杂性的指数级增加随着子结构的基数而极为快速。在这样的情况下,频繁的辨别性子图的判定可在计算及空间上效率低下至不能实行的程度。

发明内容

本发明的例示性实施例提供用于分类图数据流中的对象的方法及计算机程序产品。

该图数据流可包括表示元素的多个节点及表示这些元素之间的连接的边。该数据流中的对象可为一组节点连同这些节点之间的边。在一例示性方法中,接收图数据的训练流,其中该训练流包括多个对象连同与这些对象中的每一个相关联的类别标签。判定该训练流中的用于类别标签的辨别性边集合(例如,子图),其中一辨别性边集合为指示(但并非直接对应于)具有给定类别标签的包括这些边的对象的边集合。接着接收该图数据的一传入数据流,其中尚未将类别标签指派给该传入数据流中的对象。基于这些辨别性边集合,判定与该传入数据流中的对象相关联的类别标签。将基于该第二判定的对象类别标签对输出至一信息储存库。

附图说明

图1示出大规模图的部分;

图2示出根据本发明的一例示性实施例的用于分类图数据流中的对象的方法的流程图;

图3示出根据本发明的一例示性实施例的用于更新图数据流的每一传入边的min-hash(最小哈希)索引的算法;

图4示出对应于图3中所示出的算法的部分的流程图;

图5示出根据本发明的一例示性实施例的用于通过列压缩更新用于图数据流的每一传入图的min-hash索引的算法;

图6示出对应于图5中所示出的算法的部分的流程图;以及

图7示出用于实施本发明的例示性实施例的装置。

具体实施方式

下文将描述根据本发明的一例示性实施例的用于分类图数据流中的对象的方法。该图数据流可为大规模的。该对象可包括图的节点及边,这些节点及边标识web冲浪的模式。举例而言,受访网站为节点,且自一个网页至另一网页的路径为边。因此,访问网页1且接着访问网页2且接着访问网页3的用户很可能为具有某一属性(即,很可能购买特定书籍)的用户。本发明旨在识别这些模式,且接着将相关标签指派给这些模式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201180052233.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top