[发明专利]基于多数据流计算的社交网络热点事件检测方法有效
| 申请号: | 201810173357.8 | 申请日: | 2018-03-02 |
| 公开(公告)号: | CN108519993B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 李风环;王振宇;郭泽豪 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/30;G06F16/95 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多数 计算 社交 网络 热点 事件 检测 方法 | ||
1.一种基于多数据流计算的社交网络热点事件检测方法,其特征在于,包括以下步骤:
S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;
S2、根据主题分析结果,建立主题间的区分度和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;
S3、对用户生成内容的特征、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;
S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;
S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测;
步骤S2的具体过程为:
S21、计算每个主题ti在主题内和主题间的均值和方差,分别记为MeanIn(ti),MeanOut(ti),SIn2(ti),SOut2(ti),计算公式如下:
其中,word(ti)是主题ti中的词语,word(stext)是短文本stext中的词语,phi(wordj)是短文本在经过步骤S1的主题分析后得到的topic-word分布向量中词语wordj对应的概率值phi,指和word(stext)的交集,指和word(stext)的交集中词语的数量,|word(ti)∩word(stext)|指word(ti)和word(stext)的交集中词语的数量;
S22、利用主题内的方差SIn2(ti)和主题间的方差SOut2(ti)构建主题内聚性Intra-Distance(ti),该值越小,表明主题内特征表达主题性越集中,主题内聚性越高;具体计算公式如下:
Intra-Distance(ti)=SIn2(ti)+SOut2(ti) (5)
S23、利用主题内的均值MeanIn(ti)和主题间的均值MeanOut(ti)构建主题区分度Inter-Distance(ti),该值越大,表明不同主题的特征表达各自主题性差距越大,主题区分度越大;具体计算公式如下:
Inter-Distance(ti)=(MeanIn(ti)-MeanOut(ti))2 (6)
S24、根据Fisher线性判别模型,利用主题区分度Inter-Distance(ti)和主题内聚性Intra-Distance(ti)的比值定义统计量G(ti),该值越大,表明主题ti的区分作用越明显,越能代表短文本的特征;具体计算公式如下:
S25、为了提取主题特征的有效性,对比值定义统计量G(ti)进行归一化,将标准化后的值Zi作为主题特征的最终得分,得分越高,主题特征区分性越明显,从而作为特征进行事件检测;步骤S3的具体过程为:
S31、分别对用户行为数据和用户画像数据对应的属性值进行求和,以获取用户行为特征和构建用户画像;
S32、利用单数据流中每个数据对象x和它的K最近邻距离的均值来计算异常度sx;具体计算公式如下:
其中,Distance(x,xk)是x和xk的欧几里得距离,下标k表示数据对象x的第k个近邻,KNNSet(x)是数据对象x的K最近邻的集合;
S33、选择两个模糊集“正常”和“突发”,对所述两个模糊集利用异常度构建高斯隶属函数normal(sx)和abnormal(sx),其中参数a,b是未知的;
其中,normal(sx)和abnormal(sx)是两个模糊集“正常”和“突发”的高斯隶属函数,σ是标准差,决定了函数的幅度,是高斯函数必要的参数;
S34、选择模糊熵构建模糊度的度量,模糊度越小的模糊集表达问题越客观且确定;具体度量公式如下:
其中,N是数据对象的数量;
S35、利用模糊度最小化原则,确定和优化隶属函数中的未知参数a,b;
S36、模糊集和隶属函数根据优化的参数确定,从而确定该单数据流中关于数据对象x的异常度sx的隶属函数;
S37、根据每个单数据流的隶属函数的交叠特征,确定多数据流的目标决策D,具体指两个隶属函数相等时的隶属函数值;
步骤S4的具体过程为:
S41、利用高斯核函数计算单数据流l中每个数据对象x之间的相似矩阵,从而诱导每个数据对象在单数据流中的模糊等价关系Rl,将数据对象x粒化为等价信息粒Gl(x),所述信息粒Gl(x)构成单数据流的粒结构τl;
S42、对每个单数据流中的数据对象重复步骤S41,得到不同单数据流对应的粒结构;
S43、对于粒结构τl,根据拓扑熵构建考虑该粒结构和不考虑该粒结构的拓扑熵EΓ和EΓ',其中Γ是由多数据流形成的具有多粒结构的拓扑集合,Γ'是Γ去掉τl后的拓扑集合;
S44、用拓扑熵EΓ和EΓ'的差集来定义粒结构τl的重要度SΓ(τl),如果拓扑熵EΓ=EΓ',则粒结构τl不重要,否则是重要的;选取重要度大于0的粒结构,构成约简后的多粒度空间;所述重要度SΓ(τl)的定义公式如下:
SΓ(τl)=EΓ-EΓ' (13)
S45、利用粒结构的表示方法和知识结构距离来定义粒度距离d(τl,τj),该距离越小,说明两个粒结构τl和τj越类似,越相容;具体计算公式如下:
其中,τl={Gl(xi)|xi∈U},τj={Gj(xi)|xi∈U},其中U是数据对象集合;Gl(xi)是单数据流l中,通过步骤S41将数据对象xi粒化的等价信息粒,Gj(xi)单数据流j中,通过步骤S41将数据对象xi粒化的等价信息粒;
S46、两个粒结构的相似度定义为1-d(τl,τj),根据该相似度度量准则,将粒结构聚类,类内是相容的粒结构,类间是冲突的粒结构;
步骤S5的具体过程为:
S51、根据单数据流的粒结构和所述步骤S3中得到的目标决策D,计算单数据流中的每个数据对象x在粒结构中与目标决策D的模糊包含度I(Sl(x),D);
S52、对于相冲突的粒结构,采用乐观的多粒度覆盖决策模型,根据给定的错误容忍度α,计算乐观的多粒度下近似和乐观的多粒度上近似则乐观的多粒度决策边界域为其中m是约简后的粒结构的个数,Rl(D)代表数据流l中的决策;
S53、如果使得I(Sl(x),D)≥α,也就是说如果那么数据对象x对应的事件属于正常事件;
如果使得I(Sl(x),D)≤α,也就是说如果那么数据对象x对应的事件属于热点事件;
S54、对于相容的粒结构,采用悲观的多粒度覆盖决策模型,根据给定的错误容忍度α,计算悲观的多粒度下近似和悲观的多粒度上近似则悲观的多粒度决策边界域为
S55、如果使得I(Sl(x),D)≥α,也就是说如果那么数据对象x对应的事件属于正常事件;
如果使得I(Sl(x),D)≤α,也就是说如果那么数据对象x对应的事件属于热点事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810173357.8/1.html,转载请声明来源钻瓜专利网。





