[发明专利]一种融合话题因子的信息传播预测模型及方法在审
申请号: | 201711328590.0 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107944635A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 廖祥文;陈国龙;郑候东;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊,薛金才 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 话题 因子 信息 传播 预测 模型 方法 | ||
1.一种融合话题因子的信息传播预测模型,其特征在于:包括:
一借助于LDA主题模型学习帖子的话题向量;
一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power-Law来学习一组可观测的级联集合最小化的负对数似然函数;
一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;
一融合话题因子的情感信息传播模型,其学习用户的分布式表达算法;
以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。
2.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据预处理模块;所述数据预处理模块在用户间转发关系和被转发关系未知的情况下,仅保留了用户被感染的时间序列作为初始级联数据集。
3.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据基本假设模块,所述数据基本假设模块中设定:信息传播过程发生在静态网络上,该网络不会随着时间的变化而变化;如果某个未被感染的节点被它的第一个父节点所感染后,它将不会再次受到其他父节点的感染,并且被感染的节点只能感染未被感染的节点;用户间观点的传播由传播者的影响力和接受者的易感性共同决定。
4.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:所述生存分析模型中通过函数进行采样,从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵,具体包括以下步骤:用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的;利用传播速率计算用户间的概率密度函数,之后的得到累积概率密度函数;然后引入生存分析模型,计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。
5.根据权利要求4所述的融合话题因子的信息传播预测模型,其特征在于:给定的时间窗口内,对于一条级联,计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然,并在加入生存概率获得一条可观测到的级联的似然式子;假设级联之间互相独立,则一组可观测的级联集合最小化的负对数似然函数即为目标函数;对于目标函数中负例似然,以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有负例的情况。
6.根据权利要求4所述的融合话题因子的信息传播预测模型,其特征在于:将影响力矩阵和易感性矩阵进行分块,分别得到正面影响力向量、负面影响力向量、正面易感性向量和负面易感性向量,然后采用带有投影的随机梯度下降法进行求解;在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。
7.一种融合话题因子的信息传播预测方法,其特征在于:包括以下步骤:
步骤S1:对数据进行过滤,仅保留每条级联用户被感染的时间戳;
步骤S2:首先定义用户间的传播速率函数由传播者的影响力矩阵和接受者的易感性矩阵组成,并加入了话题向量进行调整;在融合时间衰减因素的概率传播模型Power-Law中,计算概率密度函数和累积概率密度函数,最后利用生存分析模型构建生存函数,风险函数,并获得一组可观测的级联集合最小化的负对数似然函数;
步骤S3:根据负例在一组级联中出现的频率分布对其进行采样;
步骤S4:在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。
8.根据权利要求7所述的融合话题因子的信息传播预测方法,其特征在于:步骤S1中
过滤规则包括:
1).根据帖子的时效性,将前后转发超过一周时间后面的用户转发序列去掉;
2).定义用户的活跃度为数据集中该用户转发他人的次数和该用户被他人转发的次数之和;
3). 选取数据集中用户活跃度超过某个阈值的用户作为种子用户,对于每条帖子转发关系链,按照活跃用户所占的比例从大到小排序后删除比例小的级联。
9.根据权利要求6所述的融合话题因子的信息传播预测方法,其特征在于:步骤S3包括以下步骤:
步骤S31:计算每个负例未归一化前的分布值,即在级联集合中出现的次数;
步骤S32:统计所有负例的频率之和,并利用该值进行概率归一化;
步骤S33:根据负例用户的id进行排序,并计算出相应的概率,以累积分布函数的形式排列在一条线段上;
步骤S34:将线段均匀划分为m段,左端点0对应概率值为0,右端点m对应的概率值为1;将该线段与步骤S33中得到的线段进行映射后,得出每段区间所对应的负例用户编号;
步骤S35:对0-m中的值进行随机抽样,获取该值相应的用户编号即为采样的负例,概率大小与负例频率的3/4次方成正比;
步骤S36:按照预定的负例采样次数 ,不断执行步骤S35。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711328590.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置