[发明专利]一种融合话题因子的信息传播预测模型及方法在审

专利信息
申请号: 201711328590.0 申请日: 2017-12-13
公开(公告)号: CN107944635A 公开(公告)日: 2018-04-20
发明(设计)人: 廖祥文;陈国龙;郑候东;杨定达 申请(专利权)人: 福州大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/00
代理公司: 福州元创专利商标代理有限公司35100 代理人: 蔡学俊,薛金才
地址: 350116 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 话题 因子 信息 传播 预测 模型 方法
【权利要求书】:

1.一种融合话题因子的信息传播预测模型,其特征在于:包括:

一借助于LDA主题模型学习帖子的话题向量;

一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power-Law来学习一组可观测的级联集合最小化的负对数似然函数;

一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;

一融合话题因子的情感信息传播模型,其学习用户的分布式表达算法;

以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。

2.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据预处理模块;所述数据预处理模块在用户间转发关系和被转发关系未知的情况下,仅保留了用户被感染的时间序列作为初始级联数据集。

3.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据基本假设模块,所述数据基本假设模块中设定:信息传播过程发生在静态网络上,该网络不会随着时间的变化而变化;如果某个未被感染的节点被它的第一个父节点所感染后,它将不会再次受到其他父节点的感染,并且被感染的节点只能感染未被感染的节点;用户间观点的传播由传播者的影响力和接受者的易感性共同决定。

4.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:所述生存分析模型中通过函数进行采样,从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵,具体包括以下步骤:用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的;利用传播速率计算用户间的概率密度函数,之后的得到累积概率密度函数;然后引入生存分析模型,计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。

5.根据权利要求4所述的融合话题因子的信息传播预测模型,其特征在于:给定的时间窗口内,对于一条级联,计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然,并在加入生存概率获得一条可观测到的级联的似然式子;假设级联之间互相独立,则一组可观测的级联集合最小化的负对数似然函数即为目标函数;对于目标函数中负例似然,以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有负例的情况。

6.根据权利要求4所述的融合话题因子的信息传播预测模型,其特征在于:将影响力矩阵和易感性矩阵进行分块,分别得到正面影响力向量、负面影响力向量、正面易感性向量和负面易感性向量,然后采用带有投影的随机梯度下降法进行求解;在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。

7.一种融合话题因子的信息传播预测方法,其特征在于:包括以下步骤:

步骤S1:对数据进行过滤,仅保留每条级联用户被感染的时间戳;

步骤S2:首先定义用户间的传播速率函数由传播者的影响力矩阵和接受者的易感性矩阵组成,并加入了话题向量进行调整;在融合时间衰减因素的概率传播模型Power-Law中,计算概率密度函数和累积概率密度函数,最后利用生存分析模型构建生存函数,风险函数,并获得一组可观测的级联集合最小化的负对数似然函数;

步骤S3:根据负例在一组级联中出现的频率分布对其进行采样;

步骤S4:在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。

8.根据权利要求7所述的融合话题因子的信息传播预测方法,其特征在于:步骤S1中

过滤规则包括:

1).根据帖子的时效性,将前后转发超过一周时间后面的用户转发序列去掉;

2).定义用户的活跃度为数据集中该用户转发他人的次数和该用户被他人转发的次数之和;

3). 选取数据集中用户活跃度超过某个阈值的用户作为种子用户,对于每条帖子转发关系链,按照活跃用户所占的比例从大到小排序后删除比例小的级联。

9.根据权利要求6所述的融合话题因子的信息传播预测方法,其特征在于:步骤S3包括以下步骤:

步骤S31:计算每个负例未归一化前的分布值,即在级联集合中出现的次数;

步骤S32:统计所有负例的频率之和,并利用该值进行概率归一化;

步骤S33:根据负例用户的id进行排序,并计算出相应的概率,以累积分布函数的形式排列在一条线段上;

步骤S34:将线段均匀划分为m段,左端点0对应概率值为0,右端点m对应的概率值为1;将该线段与步骤S33中得到的线段进行映射后,得出每段区间所对应的负例用户编号;

步骤S35:对0-m中的值进行随机抽样,获取该值相应的用户编号即为采样的负例,概率大小与负例频率的3/4次方成正比;

步骤S36:按照预定的负例采样次数 ,不断执行步骤S35。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711328590.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top