[发明专利]基于分布式计算的大规模社交网络信息抽取方法无效
申请号: | 201210098643.5 | 申请日: | 2012-04-01 |
公开(公告)号: | CN102663083A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 施佺;陈建平;邵叶秦;丁卫平;何鹏 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南通市永通专利事务所 32100 | 代理人: | 葛雷 |
地址: | 226019*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 计算 大规模 社交 网络 信息 抽取 方法 | ||
技术领域
本发明属于海量信息数据管理技术领域,具体涉及一种基于分布式计算的大规模社交网络信息抽取方法。
背景技术
近年来,社交网络实体、信息抽取越来越受到学术界关注。从技术层面来分析,社交网络信息抽取技术的核心在于实体抽取和社交关系抽取,而现有社交网络抽取的研究大多侧重于关系抽取的研究。现有方法抽取社交关系的基本思想是将两个实体共同出现在网页中的数量作为衡量实体之间关系强弱的度量。尽管国内外众多学者已针对基于Web环境下的社交网络实体以及关系抽取做了大量的研究工作,大规模社交网络信息抽取任务对海量计算所提出的巨大挑战仍未得到有效解决。
发明内容
本发明的目的在于提供一种从网络数据源中抽取海量实体时进行海量计算的基于分布式计算的大规模社交网络信息抽取方法。
本发明的技术解决方案是:
一种基于分布式计算的大规模社交网络信息抽取方法,其特征是:包括下列步骤:
(1)首先预处理新闻论坛网站,抽取其新闻-用户关系网络,使用新闻-用户列表的元组将新闻-用户关系网络以文件的形式进行存储,其中每个元组包含了某个新闻及其相关用户列表;
(2)以步骤(1)新闻-用户列表元组文件作为输入,通过两轮Map/Reduce分布式计算,当用户调用程序Map/Reduce函数,要实现对每个用户累积评论的新闻数量统计的大型文档文件,通过基于分布式计算的Map/Reduce来实现社交网络中各个用户新闻评论的次数信息抽取,这里的Map操作任务是对需要处理的那部分数据的文件进行设置,其输入参数为<起始位置,数据长度>,当执行Map后所输出的系列中间结果表示为<用户名,评论次数>,最终输出每个用户新闻评论次数的结果,还需要Reduce函数对其中间结果进行操作处理,最后累加相同的用户所评论新闻的次数。分别计算出每个实体用户相关的新闻数量以及每对用户之间共同评论的新闻数量,并分别以相应的元组形式储存为中间结果文件;
(3)以步骤(2)求出的两个中间结果文件:每个用户累积评论的数量文件以及每个用户对之间共同评论的数量文件,构造用户新闻表以及用户新闻共同评论表,扫描这两张表来得到|N(u)∪N(v)|的值,由此根据Jaccard系数公式计算最终的关系强度;
其中新闻-用户关系网络是由新闻集合(V1)和用户集合(V2)构成的二部网络,用G(V,E)表示,其中V=V1∪V2,且对于任意e(u,v)∈E,都有u∈V1且v∈V2;
用α(u,v)来表示两个用户u,v之间的共同兴趣强度,α(u,v)定义为:
α(u,v)=|N(u)∩N(v)|/|N(u)∪N(v)|
其中,其中N(u)表示点u在新闻-用户关系网络G中邻居的数量。
步骤(1)所述预处理的步骤如下:
(1)使用网络爬虫程序爬取新闻评论网站的数据;
(2)通过分析HTML源码,发现页面模式规律;
(3)利用模式设计正则表达式,并利用所设计的正则表达式匹配并识别爬取数据中的用户与新闻;
(4)将数据存入到新闻-用户关系元组列表文件中,作为中间文件进行存储,在文件中,将同一个新闻回复的所有用户名存放在一行。
步骤(3)所述Map/Reduce分布式计算过程的步骤如下:
(1)在第一轮Map/Reduce中,映射函数Map的输入键值对为<行数,每行的字符串>,输出的键值对为<用户,1>,化简函数Reduce以用户名为key,用户回复帖子为value的数组作为输入,统计数组长度得出回复帖子数,对相同的键值用户进行合并,处理后的输出键值对中,用户名为键,该用户回复帖子数为值;其实现基于Map/Reduce操作过程如下:首先对输入的大型文档文件进行分割Split,由系统Master来自动完成把文件中的文本内容分成若干组;利用编好的Map函数,对文件分割输出后每一对键/值对<key,value>进行处理,输出新的中间结果键/值对<key,value>值;执行Map任务的输出中间结果,系统对中间结果进行分析合并及自动对用户进行排序输出;在对中间结果进行排序后,执行Reduce任务完成归约的操作,最后统计输出每个用户对新闻评论的次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210098643.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铜及铜合金铸锭的铸造方法
- 下一篇:含防晒剂的可溶解膜