[发明专利]用于处理高维数据的系统和方法无效
申请号: | 200910149777.3 | 申请日: | 2009-05-27 |
公开(公告)号: | CN101593214A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | Y·赤;Y·龚;S·朱 | 申请(专利权)人: | 美国日本电气实验室公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王 岳;李家麟 |
地址: | 美国新*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 数据 系统 方法 | ||
本申请要求2008年5月28日提交的临时申请序号61/056,594的优先权,其内容通过引用结合于此。
技术领域
本发明涉及处理高维数据。
背景技术
在很多应用中,数据都是高维的。如何为各种应用(如个性化推荐和概括)同时分析全部的维度(dimension)成为挑战性的问题。
成对关系(pairwise relationship)存在于很多应用中,且动态数据分析已经被不同的研究者广泛研究。例如,众所周知的潜在语义索引(LSI)专注于由词语-文档(term-document)对组成的动态数据。但是,在很多应用中,数据是多态的(polyadic),也就是说,它们有更高的维度。网络数据就是这样的例子:在研究论文集(如CiteSeer)中,作家,在关于特定主题的文章中,引用了参考文献。在这个例子中,数据记录是作者-主题-参考文献三元组(triple),也就是说,该数据记录维度为三。
协作标记数据(Collaboratively tagging data)是另一例子:在协作标记系统(如Del.icio.us)中,用户将一组标签分配给给定的url(其对应于Web页面)。其中数据记录是用户-标签-url三元组。将数据的所有方面组合到数据分析中是挑战性的议题,并且已经提出各种方法以便将信息融合(fuse)到单一框架中。大多数现有的研究工作只是分析在不同维度之间的成对关系,以及然后随后组合分析结果。这样的方法失去了在数据的各种维度之间的高阶(higher order)(高于成对)依赖性(dependency)。
一些研究使用了一组概念(concept)以用于同时捕获所有的成对关系。因为这些方法将相同的概念用于表示在各种维度之间的所有成对关系,相比于那些独立地考虑成对关系的方法,它们提供了更好的性能。该第二个方法通常有更好的性能,因为它使用了更准确的模型来描述实际数据。但是,这种方法通常使用线性组合来融合所有的成对关系。这种线性组合有些特别(ad hoc)——难以在系数之后找到很好的直观性(intuition)以及原理性的方法来设置系数值。
发明内容
一方面,公开了这样的系统和方法:通过同时捕获用于所有数据维度的因子以及它们在因子模型中的相关性(correlation)来对高维数据进行因子分解(factorize);以及生成相应的损失函数来评估所述因子模型。
另一方面,公开了这样的系统和方法:通过同时捕获用于所有数据维度的因子以及它们在因子模型中的相关性来对高维数据进行因子分解,其中因子模型提供了所述数据的简要描述;以及生成相应的损失函数来评估所述因子模型。
在优选的实施例中,所述因子模型同时确定因子及其相关性,以提供更简要的数据描述和提供关于数据的自知力。最小化相关联的损失可以得出相应意味着因子分解(factorization)结果的模型参数。
优选实施例的优点可以包括下面中的一个或多个。该系统能够比那些只考虑成对关系的系统产生更高质量的因子。这些因子及其相关性可用于个性化推荐、聚类(clustering)、概括(summarization)等等。因子模型潜在的应用包括:提取和监测人和主题的相干组(coherent group),排列(rank)和推荐重要的人和文档,或者对数据进行概括和可视化。
附图说明
尤其在结合附图一起阅读时从其示范性实施例的以下详细描述中将容易地理解本系统,其中贯穿几个视图相同部件具有相同标号。
图1显示了示例性过程,用以将高维数据因子分解为每个维度中的因子以及在不同维度中的因子之间的相关性。
图2显示了对数据张量(data tensor)进行因子分解的示例性过程。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美国日本电气实验室公司,未经美国日本电气实验室公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910149777.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于多媒体再现的扩展时间码
- 下一篇:打印控制设备及其控制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置