[发明专利]基于分布式环境的张量CP分解实现方法有效

专利信息
申请号: 201711426277.0 申请日: 2017-12-26
公开(公告)号: CN108170639B 公开(公告)日: 2021-08-17
发明(设计)人: 周维;麦超;蔡莉;何靖;姚绍文 申请(专利权)人: 云南大学
主分类号: G06F17/15 分类号: G06F17/15
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平;陈靓靓
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 分布式 环境 张量 cp 分解 实现 方法
【说明书】:

发明公开了一种基于分布式环境的张量CP分解实现方法,基于ALS算法,对每次迭代过程中因子矩阵A(n)的更新,首先通过拆分Khatri‑Rao乘积的方式计算Y=X(n)(A(N)⊙…⊙A(n+1)⊙A(n‑1)⊙…⊙A(1)),然后采用并行计算外积的方式计算最后将矩阵Y和矩阵V进行分块,采用Map操作将矩阵Y和矩阵V中对应的分块矩阵分发到Spark集群的主机上,采用Reduce操作进行矩阵乘法,然后再将乘法结果采用Map操作发送到一台主机上采用Reduce操作进行合并,得到A(n)=YV。本发明基于MapReduce和Spark技术来实现张量CP分解,可以有效提高张量CP分解的效率。

技术领域

本发明属于张量分解技术领域,更为具体地讲,涉及一种基于分布式环境的张量CP分解实现方法。

背景技术

近年来,在社交网络、计算广告和电商等领域,数据规模增长迅速。为了描述复杂关系,例如:社交网络中好友关系、计算广告和电商中每个人的特征,基于高维度空间建模的数据大量出现。这些高阶数据的出现,使得传统用矩阵以二维的方式来描述数据的方法逐渐不适用,因此迫切需要一种能够描述高维数据中的高阶关系的工具。

张量作为矩阵在高维度空间的泛化,是描述多个变量之间的高阶关系更好的工具。早在1940年,张量就在心理测量学中被提出了,后来张量被广泛应用于物理、数值分析、信号处理和理论计算机科学等理论领域。由于张量本身是高维数组,而基于张量的算法在时间复杂度上往往是指数级别的,计算时需要很多次的迭代,早期的计算机根本无法完成这样的计算。

随着硬件和软件技术的发展,大型服务器由于成本和维护等因素,逐渐不再是工业界的首选,由普通PC搭建的集群逐渐成为了主流的数据处理平台。继理论领域的发展之后,因为张量描述和分析高阶数据的能力,张量再次在工程领域受到了大量的关注。MapReduce等编程模型的出现,把单台机器独立运行的算法变为了分散到多台机器上运行的算法,利用多台机器并行计算的能力提高计算效率。分布式存储和计算这样的大数据技术的兴起,则使处理大规模数据成为了可能。目前常用的分布式计算框架有Hadoop和Spark,基于MapReduce编程模型的Hadoop是最广泛使用的分布式计算框架,但Hadoop的每个MapReduce任务在执行前后都需要读写磁盘,大量的磁盘I/O使得Hadoop并不适用于迭代很多的场景。Spark中的分布式弹性数据集(RDD)是存储在内存当中的,每次迭代避免了访问磁盘带来的开销,大大提升了迭代的效率。

张量的计算是易于并行化的,通过分布式处理的方式,现在能够完成早期无法处理的问题。而张量的CP分解(Canonical Polyadic Decomposition)作为张量研究中的关键,也在逐渐被越来越广泛的使用,CP分解能够提取出数据中隐含的主题、去除噪声数据、降低数据维度。传统的CP分解算法是单机运行的,虽然通过提升机器的配置可以使程序处理更大规模的数据,但是这样的提升毕竟有限。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于分布式环境的张量CP分解实现方法,基于MapReduce和Spark技术提高张量CP分解的效率。

为了实现以上发明目的,本发明基于分布式环境的张量CP分解实现方法,对于秩为R的N阶张量初始化N个因子矩阵A(n),每次迭代时轮流更新的每个因子矩阵,计算时固定其他的因子矩阵不变,重复迭代直到目标函数的值为零或小于给定的阈值为止,此时的N个因子矩阵A(n)即为张量的CP分解结果,其中因子矩阵A(n)的更新公式为:

因子矩阵A(n)的更新采用以下方法:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711426277.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top