[发明专利]一种融合话题因子的信息传播预测模型及方法在审

申请号：	201711328590.0	申请日：	2017-12-13
公开（公告）号：	CN107944635A	公开（公告）日：	2018-04-20
发明（设计）人：	廖祥文;陈国龙;郑候东;杨定达	申请（专利权）人：	福州大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/00
代理公司：	福州元创专利商标代理有限公司35100	代理人：	蔡学俊,薛金才
地址：	350116 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合话题因子信息传播预测模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合话题因子的信息传播预测模型，其特征在于：包括：

一借助于LDA主题模型学习帖子的话题向量；

一生存分析模型，其用于刻画用户行为，通过所述话题向量调整用户间的传播速率，并采用融合时间衰减因素的传播概率模型Power-Law来学习一组可观测的级联集合最小化的负对数似然函数；

一负采样算法组成模块，用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性；

一融合话题因子的情感信息传播模型，其学习用户的分布式表达算法；

以及实验任务和对应的评价指标，该指标用于预测用户在潜在网络下对不同话题信息的传播行为。

2.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：还包括数据预处理模块；所述数据预处理模块在用户间转发关系和被转发关系未知的情况下，仅保留了用户被感染的时间序列作为初始级联数据集。

3.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：还包括数据基本假设模块，所述数据基本假设模块中设定：信息传播过程发生在静态网络上，该网络不会随着时间的变化而变化；如果某个未被感染的节点被它的第一个父节点所感染后，它将不会再次受到其他父节点的感染，并且被感染的节点只能感染未被感染的节点；用户间观点的传播由传播者的影响力和接受者的易感性共同决定。

4.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：所述生存分析模型中通过函数进行采样，从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵，具体包括以下步骤：用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的；利用传播速率计算用户间的概率密度函数，之后的得到累积概率密度函数；然后引入生存分析模型，计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。

5.根据权利要求4所述的融合话题因子的信息传播预测模型，其特征在于：给定的时间窗口内，对于一条级联，计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然，并在加入生存概率获得一条可观测到的级联的似然式子；假设级联之间互相独立，则一组可观测的级联集合最小化的负对数似然函数即为目标函数；对于目标函数中负例似然，以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有负例的情况。

6.根据权利要求4所述的融合话题因子的信息传播预测模型，其特征在于：将影响力矩阵和易感性矩阵进行分块，分别得到正面影响力向量、负面影响力向量、正面易感性向量和负面易感性向量，然后采用带有投影的随机梯度下降法进行求解；在给定的网络，信息内容和初始传播状态后，将其应用于任务评估所提出的方法在预测信息传播过程的效果。

7.一种融合话题因子的信息传播预测方法，其特征在于：包括以下步骤：

步骤S1:对数据进行过滤，仅保留每条级联用户被感染的时间戳；

步骤S2:首先定义用户间的传播速率函数由传播者的影响力矩阵和接受者的易感性矩阵组成，并加入了话题向量进行调整；在融合时间衰减因素的概率传播模型Power-Law中，计算概率密度函数和累积概率密度函数，最后利用生存分析模型构建生存函数，风险函数，并获得一组可观测的级联集合最小化的负对数似然函数；

步骤S3：根据负例在一组级联中出现的频率分布对其进行采样；

步骤S4：在给定的网络，信息内容和初始传播状态后，将其应用于任务评估所提出的方法在预测信息传播过程的效果。

8.根据权利要求7所述的融合话题因子的信息传播预测方法，其特征在于：步骤S1中

过滤规则包括：

1）.根据帖子的时效性，将前后转发超过一周时间后面的用户转发序列去掉；

2）.定义用户的活跃度为数据集中该用户转发他人的次数和该用户被他人转发的次数之和；

3）. 选取数据集中用户活跃度超过某个阈值的用户作为种子用户，对于每条帖子转发关系链，按照活跃用户所占的比例从大到小排序后删除比例小的级联。

9.根据权利要求6所述的融合话题因子的信息传播预测方法，其特征在于：步骤S3包括以下步骤：

步骤S31：计算每个负例未归一化前的分布值，即在级联集合中出现的次数；