[发明专利]一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统有效
申请号: | 201811166418.4 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109271488B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 蔡瑞初;谢泳;陈薇;郝志峰;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/955 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 510006 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 行为 序列 文本 信息 社交 网络 用户 因果关系 发现 方法 系统 | ||
本发明提供了一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统,包括:S1)、数据获取;S2)、以最小的时间单位对数据进行等间距预处理;S3)、利用时序行为数据,优化目标函数以找到最优间隔;S4)用合并时刻拼接文本的方式重新构造文本数据,文本向量化表示;S5)对两两用户的文本向量序列进行传递熵计算;S6)、剪枝得到用户因果关系网络;S7)、用户因果网络存储与导出;S8)用户因果关系查询及可视化。本发明解决了用户活动稀疏给传递熵计算带来的问题;用文本数据推断社交网络的用户因果关系,信息量比纯粹的行为数据更丰富;提供了一个交互式的用户因果关系推断、查询和导出系统。
技术领域
本发明涉及数据挖掘技术领域,尤其是一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。
背景技术
在社交网络上,由于大量用户的参与,产生了一系列的用户活动数据和用户文本、音频、视频数据。用户可以通过各种网络渠道发布消息或上传图片和视频。用户可以将他们日常的所见所闻所感写成一句话,通过电脑或者手机随时随地分享给朋友;还可以关注朋友的动态。
随着社交网络用户数量的不断增加,从用户的动态中可以挖掘出用户的兴趣爱好、关注话题。数据挖掘和分析的人们的目光也越来越多地投向了社交网络,国内外研究社交网络挖掘和用户影响力的学者很多,成果颇丰。比如计算网页重要度的计算方法PageRank、在PageRank算法的基础上提出的TunkRank算法、TwitterRank算法等。以上所阐述的方法虽然使用了不同的度量方式来计算影响力,但实质上,这些算法关注点基本都是用户显式声明的关系网络。然而,用户显式声明的好友网络往往具有较大的冗余性,具体表现为大量显式声明的好友网络对于用户的影响力没有实质作用。比如,僵尸粉是指有名无实的粉丝,它们通常是由系统自动产生的恶意注册用户,僵尸粉与博主之间存在一种关注的关系,但是并不意味着他们之间的行为存在影响关系。这种类型的方法发现出来的影响关系和强度对预测用户感兴趣内容、推荐可能感兴趣用户等方面的实际应用有很大的干扰。
目前因果关系领域中对社交网络的分析主要利用的是用户活动数据。用户的活动包括发送动态、评论、转发、关注等。使用用户行为数据的预处理难度低。基于活动的时序数据推断因果关系可以在一定程度上得到比较好的效果,但其存在的不足是数据没有包含真实内容信息。假设用户X在t-1时刻有活动,用户Y在t时刻也有活动,从时序上看似乎存在或强或弱的影响关系。但如果考虑其文本内容,有可能Y在t时刻的活动讨论的话题与X在t-1时刻截然不同。这就是文本信息的独特作用。文本内容既代表用户存在活动,又能提取出这个时间节点上的活动关注的主题是什么,根据不同用户对各个主题的关注度在时序上的分布,可以更为准确地推断出他们之间是否存在因果关系。通过分析用户在社交网络上发表的文本信息之间存在的关联,最终获得更为可靠的社交网络中的用户因果关系。另外,在时序数据的使用中,现有技术基本是对数据进行等间隔划分,由于稀疏性会导致某些数据的作用不大甚至会误导信息传递的发现,因此,我们可以用一个更为适当的方法来找到最优间隔序列,重新构造数据。
发明内容
针对现有技术的不足,本发明提供一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。
本发明的技术方案为:一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,包括以下步骤:
S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;
S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811166418.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种相似文本分析方法
- 下一篇:一种文本检测方法及装置