[发明专利]基于分布式计算的大规模社交网络信息抽取方法无效
申请号: | 201210098643.5 | 申请日: | 2012-04-01 |
公开(公告)号: | CN102663083A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 施佺;陈建平;邵叶秦;丁卫平;何鹏 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南通市永通专利事务所 32100 | 代理人: | 葛雷 |
地址: | 226019*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于分布式计算的大规模社交网络信息抽取方法,首先预处理新闻论坛网站,抽取其新闻-用户关系网络,使用新闻-用户列表的元组将新闻-用户关系网络以文件的形式进行存储,其中每个元组包含了某个新闻及其相关用户列表;以新闻-用户列表元组文件作为输入,计算出每个实体用户相关的新闻数量以及每对用户之间共同评论的新闻数量,并分别以相应的元组形式储存为中间结果文件;以求出的两个中间结果文件构造用户新闻表以及用户新闻共同评论表,扫描这两张表来得到|N(u) |
||
搜索关键词: | 基于 分布式 计算 大规模 社交 网络 信息 抽取 方法 | ||
【主权项】:
1.一种基于分布式计算的大规模社交网络信息抽取方法,其特征是:包括下列步骤:(1)首先预处理新闻论坛网站,抽取其新闻-用户关系网络,使用新闻-用户列表的元组将新闻-用户关系网络以文件的形式进行存储,其中每个元组包含了某个新闻及其相关用户列表;(2)以步骤(1)新闻-用户列表元组文件作为输入,通过两轮Map/Reduce分布式计算,当用户调用程序Map/Reduce函数,要实现对每个用户累积评论的新闻数量统计的大型文档文件,通过基于分布式计算的Map/Reduce来实现社交网络中各个用户新闻评论的次数信息抽取,这里的Map操作任务是对需要处理的那部分数据的文件进行设置,其输入参数为<起始位置,数据长度>,当执行Map后所输出的系列中间结果表示为<用户名,评论次数>,最终输出每个用户新闻评论次数的结果,还需要Reduce函数对其中间结果进行操作处理,最后累加相同的用户所评论新闻的次数。分别计算出每个实体用户相关的新闻数量以及每对用户之间共同评论的新闻数量,并分别以相应的元组形式储存为中间结果文件;(3)以步骤(2)求出的两个中间结果文件:每个用户累积评论的数量文件以及每个用户对之间共同评论的数量文件,构造用户新闻表以及用户新闻共同评论表,扫描这两张表来得到|N(u)∪N(v)|的值,由此根据Jaccard系数公式计算最终的关系强度;其中新闻-用户关系网络是由新闻集合(V1)和用户集合(V2)构成的二部网络,用G(V,E)表示,其中V=V1∪V2,
且对于任意e(u,v)∈E,都有u∈V1且v∈V2;用α(u,v)来表示两个用户u,v之间的共同兴趣强度,α(u,v)定义为:α(u,v)=|N(u)∩N(v)|/|N(u)∪N(v)|其中,其中N(u)表示点u在新闻-用户关系网络G中邻居的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210098643.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种铜及铜合金铸锭的铸造方法
- 下一篇:含防晒剂的可溶解膜