[发明专利]一种融合话题因子的信息传播预测模型及方法在审
申请号: | 201711328590.0 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107944635A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 廖祥文;陈国龙;郑候东;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊,薛金才 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 话题 因子 信息 传播 预测 模型 方法 | ||
技术领域
本发明属于信息传播领域,更具体地涉及一种融合话题因子的信息传播预测模型及方法。
背景技术
当前,有很多技术方法可用于信息传播预测的研究。传统的信息传播模型包括独立级联模型和线性阈值模型。在给定的某个时刻,两种模型中网络的节点存在两种状态,一种为活跃态,另一种为非活跃态,且非活跃态可以转为活跃态,反之不可以。两种方法都是通过设置激活阈值或激活概率直接判断用户间是否发生传播。该方法忽略了用户间的差异性,在一定程度上限制了模型的灵活性。
当前,还提出了基于社会网络的信息传播机制研究和基于生存分析模型研究。其中,社会网络中的信息传播模型,结合了网络结构,提取与信息传播相关的用户特征和内容特征进行建模,包括用户自身影响力与活跃度、信息的内容、用户间的兴趣相似性、朋友帖子的内容等等。此外,近几年来,国内外研究学者开始尝试利用生存分析模型(Survival Analysis Model)及其变体学习用户对间的传播速率(Transmission Rate),然后根据现有观察到的网络数据推断潜在的信息传播路径,使之与真实的信息传播路径的偏差尽可能小。特别地,假设用户间传播发生的概率取决于用户被感染的时间和用户之间的传播速率,通过最大化级联的似然学习用户间的传播概率。
一般而言,用户对符合个人兴趣或能够引起强烈共鸣的话题帖子往往会更多地去对它们进行转发、分享和评论。不足的是,已有的多数模型只考虑连续时间下用户被感染的时间戳和用户对包含不同情感极性的微博内容可能表现出不同的感染行为,而忽略了关于消息内容谈论的话题也是预测信息在未来是否能够发生传播的重要因素。因此,人们迫切希望能有一种更加高效准确的信息传播预测方法,该方法利用帖子的话题分布来调节用户的影响力和易感性矩阵,进而改变用户间的传播速率,并加入负例采样的方法度量用户间传播概率,最后根据现有观察到的网络数据推断潜在信息传播路径。
发明内容
因此,本发明的目的是提出一种融合话题因子的信息传播预测,能够高效准确地进行预测,并且能够应用于更大规模的级联数据集的传播预测当中。
为实现上述目的,本发明采用以下技术方案:一种融合话题因子的信息传播预测模型,其包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power-Law方法学习一组可观测的级联集合最小化的负对数似然函数;一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;一融合话题因子的情感信息传播模型学习用户的分布式表达算法;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。
在本发明一实施例中,还包括数据预处理模块;所述数据预处理模块在用户间转发关系和被转发关系未知的情况下,仅保留了用户被感染的时间序列作为初始级联数据集。
在本发明一实施例中,数据基本假设模块,所述数据基本假设模块中设定:信息传播过程发生在静态网络上,该网络不会随着时间的变化而变化;如果某个未被感染的节点被它的第一个父节点所感染后,它将不会再次受到其他父节点的感染,并且被感染的节点只能感染未被感染的节点;用户间观点的传播由传播者的影响力和接受者的易感性共同决定。
在本发明一实施例中,所述生存分析模型中通过函数进行采样,从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵,具体包括以下步骤:用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的;利用传播速率计算用户间的概率密度函数,之后的得到累积概率密度函数;然后引入生存分析模型,计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。
在本发明一实施例中,给定的时间窗口内,对于一条级联,计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然,并在加入生存概率获得一条可观测到的级联的似然式子;假设级联之间互相独立,则一组可观测的级联集合最小化的负对数似然函数即为目标函数;对于目标函数中负例似然,以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有负例的情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711328590.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置