[发明专利]基于Haloop的BlogRank算法并行化处理的构建方法无效
申请号: | 201310119937.6 | 申请日: | 2013-04-08 |
公开(公告)号: | CN103279328A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 娄渊胜;张文渊;叶枫;许峰;陈胜 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于Haloop的BlogRank算法并行化处理的构建方法,对博客数据进行预处理;将算法每一次迭代过程抽象成MapReduce模型,该模型由2个具体的MapReduce过程组成;分离迭代过程中的循环不变量和循环变量;设置合适的迭代终止条件和最大迭代次数;运用Haloop框架提供的编程接口进行计算。经过试验,在大数据量的情况下,相对于传统的运用矩阵的单机计算方式和运用Hadoop框架的分布式计算方式,运用Haloop框架的构建方法明显提高了运行效率,且数据量越大,效率提高得越多。说明了该方法能够有效地降低迭代对于BlogRank算法执行效率的影响,以及良好地适应该算法处理大规模数据的需求。 | ||
搜索关键词: | 基于 haloop blogrank 算法 并行 处理 构建 方法 | ||
【主权项】:
一种基于Haloop的BlogRank算法并行化处理的构建方法,其特征在于,包括如下步骤:步骤1:运用MapReduce编程模型的计算原理进行数据预处理,即:将数据按照Haloop框架的用户配置进行备份、拷贝、转移;此外,将一次迭代过程转化成两个MapReduce任务,第一个MapReduce任务用于计算每个出链博客所获得BR贡献量,第二个MapReduce任务用于计算汇总所有的BR值贡献量;步骤2:在第一个MapReduce任务的Map阶段,在各节点中并行地执行Map任务,将输入数据中的循环不变量和循环变量分离开来;步骤3:在第一个MapReduce任务的Reduce阶段,运用BlogRank算法公式并行地计算出每一个出链博客所获得的本地BR值贡献量;步骤4:在第二个MapReduce任务的Map阶段,将Job1的输出数据进行排序整合,不经过计算处理直接输出作为该MapReduce任务的中间结果;步骤5:在第二个MapReduce任务的Reduce阶段,按照BlogRank算法的公式对每一个博客所获得的BR值贡献量进行合计;形成当前的博客BR值表,并进行临界点检测;步骤6:若超过用户设定的最大迭代次数或结果达到临界点,则停止迭代,向Master节点输出结果;否则,转到步骤2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310119937.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种任务调度的方法及装置
- 下一篇:一种去屑香波组合物