[发明专利]基于Haloop的BlogRank算法并行化处理的构建方法无效

申请号：	201310119937.6	申请日：	2013-04-08
公开（公告）号：	CN103279328A	公开（公告）日：	2013-09-04
发明（设计）人：	娄渊胜;张文渊;叶枫;许峰;陈胜	申请（专利权）人：	河海大学
主分类号：	G06F9/38	分类号：	G06F9/38
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	210098 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 haloop blogrank 算法并行处理构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于Haloop框架的、BlogRank算法并行化处理的构建方法，属于云计算领域的算法并行化研究。

背景技术

随着互联网的高速发展，越来越多的用户使用博客。博客系统中博文的更新越来越频繁，数量也越来越多。如何使用户短时间内在海量的博文中搜索到自己想要的博文呢？建立一个良好的、高效的博客评价体系是至关重要的。BlogRank算法是基于博客计量学和PageRank算法提出的，它是用于量化博客“影响度”的一种算法，是博客评价体系中的重要一环，而该算法最终求得的结果为所有博客的排名值（即BR值，介于1至10之间，BR值越大说明该博客越有价值）。BlogRank算法的输入为数据集中所有博客的初始BR值（由用户设定）以及其相互的链接关系，输出为这些博客相应的最终BR值。它的公式如下：

其中，表示给定的博客A的BR值，E为阻尼系数（介于0到1之间，一般取为0.85），表示拥有指向博客A的实质性链接的博客T_n的当前BR值，表示博客T_n中拥有的实质性链接的数量。

然而，由于博客数据具有海量和更新频繁的特点，以及BlogRank算法本质上是一个基于Markov过程的迭代算法，因此它的运行效率往往是难以保证的。而现有的关于BlogRank算法的研究主要集中于两个方面：改进BlogRank算法本身，以及改进BlogRank算法的实现机制。它们都旨在于从减少算法的迭代次数、加快算法的收敛速度、将算法并行化等方面来提高算法的运行效率，然而，在海量数据的背景下，这些改进还不足以使得算法效率得到显著的提升。

发明内容

发明目的：针对现有技术中存在的问题，引入Haloop这一迭代式MapReduce模型的实现框架。本发明提供一种基于Haloop的BlogRank算法并行化处理的构建方法，能够有效地降低迭代对于BlogRank算法执行效率的影响，以及良好地适应该算法处理大规模数据的需求。

技术方案：一种基于Haloop的BlogRank算法并行化处理的构建方法，利用Haloop框架显式地支持迭代的特性，将BlogRank算法的一次迭代过程抽象为两个MapReduce过程（Job1和Job2），实现BlogRank算法的并行化。

主要的实现步骤如下：

步骤1：运用MapReduce编程模型的计算原理进行数据预处理，即：将数据按照Haloop框架的用户配置进行备份、拷贝、转移等等；此外，我们将一次迭代过程转化成两个MapReduce任务，第一个MapReduce任务（Job1）用于计算每个出链博客所获得BR贡献量，第二个MapReduce任务（Job2）用于计算汇总所有的BR值贡献量；

步骤2：在Job1的Map阶段，在各节点中并行地执行Map任务，将输入数据中的循环不变量（即：博客间的链接关系）和循环变量（即：博客当前排名）分离开来；

步骤3：在Job1的Reduce阶段，运用BlogRank算法公式并行地计算出每一个出链博客所获得的本地BR值贡献量；

步骤4：在Job2的Map阶段，将Job1的输出数据进行排序整合，不经过计算处理直接输出作为该MapReduce任务的中间结果；

步骤5：在Job2的Reduce阶段，按照BlogRank算法的公式对每一个博客所获得的BR值贡献量进行合计；形成当前的博客BR值表，并进行临界点检测；

步骤6：若超过用户设定的最大迭代次数或结果达到临界点，则停止迭代，向Master节点输出结果；否则，转到步骤2。

有益效果：与现有技术相比，本发明提供的基于Haloop的BlogRank算法并行化处理的构建方法，充分利用Haloop框架支持迭代的特性，以及MapReduce模型处理大规模数据的能力，实现BlogRank算法的并行化，进而提高算法运行的效率。实验结果表明，本发明方法能够大大减少在迭代过程中不必要的数据传输，降低了I/O消耗，从而大大提升BlogRank算法执行的效率。在理论上极大地降低了迭代和海量数据对于算法执行效率的影响。

附图说明

图1为本发明来源思路图；

图2为本发明实施例的BlogRank算法并行化处理流程图；

图3为Job1中Map任务的输入输出图；

图4为Job1中Reduce任务的输入输出图；

图5为Job2中Map任务的输入输出图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310119937.6/2.html，转载请声明来源钻瓜专利网。