[发明专利]用于自动数据探索的方法和装置无效

专利信息
申请号: 201310213773.3 申请日: 2013-05-31
公开(公告)号: CN103577514A 公开(公告)日: 2014-02-12
发明(设计)人: A·贝格尔兹莫;N·马斯特纳德;S·帕塔萨拉蒂;A·V·里亚博夫;D·图拉加;O·乌德雷亚 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市中咨律师事务所 11247 代理人: 于静;张亚非
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 自动 数据 探索 方法 装置
【说明书】:

技术领域

发明一般地涉及数据挖掘、机器学习以及数据探索,更具体地说,涉及选择和部署数据分析的分析流。

背景技术

数据挖掘和机器学习这两门学科涉及开发用于从经验数据中发现演进模式和行为并支持基于这些模式和行为执行决策的工具。

针对特定数据使用特定挖掘或学习方法通常涉及根据给定数据表示使用数据源,从数据中提取感兴趣的特征子集,将特征引入学习方法中以构建模型,以及根据反馈或真实情况演进或改善模型。这些方法依赖用户的经验。通常,用户跨方法进行整合,具体而言,用户专注于选择学习方法和选择感兴趣的特征。针对数据探索选择特定机器学习方法是一个耗时的人工密集型过程,需要机器学习和经验数据领域中的专门技能。

发明内容

根据本发明的一个实施例,一种用于自动数据探索的方法包括:从分析流模式选择多个分析流;执行任务,其中通过所述多个分析流跟踪所述任务;接收所述多个分析流中的每个分析流的反馈;确定所述多个分析流中的每个分析流的性能得分;以及根据所述性能得分来调整所述流。

根据本发明的一个实施例,一种用于自动数据探索的方法包括:从分析流模式选择多个分析流以便检测计算机网络业务中的异常;执行用于检测所述计算机网络业务中的所述异常的任务,其中通过所述多个分析流跟踪所述任务;接收所述多个分析流中的每个分析流的反馈;确定所述多个分析流中的每个分析流的性能得分,所述得分指示相应分析流检测所述计算机网络业务中的恶意软件活动的能力;以及根据所述性能得分来调整所述流。

附图说明

下面将参考附图更详细地描述本发明的优选实施例,这些附图是:

图1是根据本发明的一个实施例的分析流模式;

图2是根据本发明的一个实施例的基于图1的分析流模式的示例性分析流;

图3是根据本发明的一个实施例的用于执行机器学习任务的端到端应用的图示;以及

图4是根据本发明的一个实施例的用于实现用于自动数据探索的方法的计算机系统的示意图。

具体实施方式

根据本发明的一个实施例,机器学习任务可以利用应用的分析流和各种任务的对应分析流模式。这些任务包括—但不限于—自动选择学习方法(多个)、从原始数据推导出特征,选择输入到每种方法的特征,以及根据反馈改变包含在这些任务中的方法、特征、模型以及变量参数。

在许多领域中,用于最终用户(例如,领域专家)的一组流可以遵循特定模式。流开发人员可以指定独立的流和流模式。流模式描述在结构上类似并执行类似任务的可能流的空间。

将根据计算机网络的安全分析应用描述本发明的各示例性实施例。应该理解,此处描述的实施例仅作为示例,在不偏离本发明的范围的情况下,本领域的技术人员可以在其中做出各种其它更改和修改。

图1是根据本发明的一个实施例的计算机网络的安全分析应用的示例性分析流模式。图1的分析流模式为通用模板或模式,其归纳并编码一组任务中的不同分析流。分析流模式可以由域专家指定,从一个或多个传感器或探测器(例如,输出事件、实时数据、数据记录等)推导出等。

分析流模式跟踪任务之间的数据流。例如,图1的分析流模式包括引入数据源(101)、属性选择(102)、从选定属性提取特征(103),属性分组(104)(例如,根据所提取的特征)、数据聚合(105)、统计模型构建(106),以及统计上的意外事件(statistical surprises)的检测(107),例如计算机网络安全应用中的入侵检测。

图2是根据本发明的一个实施例的示例性分析流,其引入域名服务器(DNS)数据流。图2所示的分析流是图1的分析流模式的一个实例。

可经由分析本体、推理、自动化流合成/计划方法等从分析流模式提取分析流。例如,在一个示例性自动计划和分析流生成工具(例如,MARIO)中,该工具使用注释分析流构造块(例如,已标记组件)存储库,接受分析流模式,以及从构造块中自动创建一个或多个分析流。更具体地说,MARIO是跨平台流程合成器,可用于跨多个信息处理平台合成和部署应用。MARIO生成高级平台无关的流,并调用平台特定的后端插件以生成和部署这些流的平台特定实现。分析流是分析流模式的实例。

分析流模式可使用专用语言来编写,例如Cascade。Cascade是描述图模式的语言。模式提供自上而下的结构化方法来定义允许的流。通过这种方式,模式帮助将规划者的搜索空间限于较小的有用流集合。模式还可以帮助针对特定域中的信息处理捕捉可重用的设计模式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310213773.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top