[发明专利]一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统有效
申请号: | 201811166418.4 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109271488B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 蔡瑞初;谢泳;陈薇;郝志峰;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/955 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 510006 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统,包括:S1)、数据获取;S2)、以最小的时间单位对数据进行等间距预处理;S3)、利用时序行为数据,优化目标函数以找到最优间隔;S4)用合并时刻拼接文本的方式重新构造文本数据,文本向量化表示;S5)对两两用户的文本向量序列进行传递熵计算;S6)、剪枝得到用户因果关系网络;S7)、用户因果网络存储与导出;S8)用户因果关系查询及可视化。本发明解决了用户活动稀疏给传递熵计算带来的问题;用文本数据推断社交网络的用户因果关系,信息量比纯粹的行为数据更丰富;提供了一个交互式的用户因果关系推断、查询和导出系统。 | ||
搜索关键词: | 一种 结合 行为 序列 文本 信息 社交 网络 用户 因果关系 发现 方法 系统 | ||
【主权项】:
1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,其特征在于,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:
其中,n为用户数量,|θ|是时序长度,
表示采用间隔θ对数据进行重新划分,xi表示第i个用户的时序行为数据,
为信息熵,
是变量
的传递熵,表示其在时序上的信息传递,λ为正则化系数;S4)、使用最优相邻间隔合并法求解目标函数的最大值及其相应的参数θ*,具体为:对于一个特定时序间隔序列θ,考察在其基础上所有两两相邻的时刻,分别计算其合并后的θi对应的目标函数值,选出其中目标函数值最大的方案合并,然后令
重复上述方法,直到下一步的最大目标函数值不大于当前时序间隔序列的目标函数值,则求得最优的间隔序列θ*,迭代结束;S5)、重新切分时序文本数据,利用步骤S4)中得到的最优间隔θ*构造出基于最优间隔θ*的文本序列;由于文本已经按照最小时间单位切分,因此新的间隔序列在时序文本序列上做的操作是减少时刻,拼接文本,构造最优间隔θ*对应的文本序列;S6)、计算文本中词汇的TF‑IDF值,选用文本向量模型LDA对步骤S5)中获得的自然语言的文本进行向量化表示,得到可以输入到计算机程序的时序文本向量U=(u1,u2,...,un),其中,ui表示第i个用户对应的文本向量矩阵;S7)、对两两用户的文本向量序列进行多维连续的传递熵计算,得到一个结果矩阵Te_rst,每个元素Te_rst[i][j]表示用户i对用户j的信息传递熵,所述的传递熵定义如下:
其中,
为给定用户j自身滞后期文本信息后,用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息,l为数据长度,k为滞后长度,
为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度,
为给定用户i滞后期文本信息、用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度,
为给定用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度;S8)、对传递熵矩阵进行剪枝处理,得到用户因果关系网络;检测传递熵结果的每个元素值,通过设定的阈值来过滤不显著的信息传递值,将这条边从因果网络中删除;然后,比较两个变量之间两个方向的传递熵,若两者差异明显,则删除传递熵值小的方向,最终剩下的非零值表示用户因果网络中存在的边。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811166418.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种相似文本分析方法
- 下一篇:一种文本检测方法及装置