[发明专利]一种用于用户行为分析的基于证据推理的集成聚类方法有效
申请号: | 201810814178.8 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109002858B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 褚燕;王刚;张峰;陈刚 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06K9/62;G06N5/04 |
代理公司: | 合肥金安专利事务所(普通合伙企业) 34114 | 代理人: | 彭超 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 用户 行为 分析 基于 证据 推理 集成 方法 | ||
1.一种用于用户行为分析的基于证据推理的集成聚类方法,适用于带有时间特性的流数据集;其特征在于,包括如下步骤:
步骤1,对于不同时段的用户行为数据集{D1,D2,...,Dk,...,DK},利用不同参数的模糊C均值算法分别生成K个隶属度矩阵{U1,U2,...,Uk,...,UK};其中,Dk表示第k个时段的数据,Uk表示第k个隶属度矩阵;所述用户行为数据集是将带有时间特性的原始流数据按时间窗口切分获得的数据集;
步骤2,将步骤1得到的所述K个隶属度矩阵{U1,U2,...,Uk,...,UK}转换为K个相似矩阵{SM1,SM2,...,SMk,...,SMK},并将所述K个相似矩阵转化为相似向量{SV1,SV2,...,SVk,...,SVK},并进行归一化处理;其中,相似向量由SV=Ω={H1,H2,...,Hm,...,HM}表示;
步骤3,令Ω的幂集由公式(7)表示:
则根据证据推理规则,将所述相似向量{SV1,SV2,...,SVK}通过迭代算法可得到合并后的集成相似向量SV*=E(K)={H1,H2,...,Hm,...,HM},且pH,E(K)表示为证据E(K)对H的信度;
步骤4,基于证据推理的集成相似向量SV*,利用层次聚类方法中的AGNES算法确定最终集成聚类结果{C1,C2,...,Ct,...,CT},其中Ct为聚类簇,T为最终聚类个数;
所述步骤1具体包括:
步骤1.1,用值在(0,1)区间内的随机数初始化隶属矩阵U,并且所述隶属矩阵U满足公式(1)的约束:
在公式(1)中,uij在所述隶属度矩阵U中表示第j个样本点属于第i个聚类中心的概率;C表示第k个模糊C均值算法的聚类个数;
步骤1.2,利用公式(2)构造模糊C均值算法的目标函数:
在公式(2)中,中m表示隶属度uij的系数,一般取值为2;表示第i个聚类中心ci与第j个数据点xj间的欧几里得距离;给定阈值δ或最大迭代次数Max_iteration,若公式(2)小于阈值δ或达到最大迭代次数则直接进入步骤1.5,否则进入步骤1.3;
步骤1.3,利用公式(3)和公式(4)更新聚类中心ci和隶属度矩阵U中的元素uij:
步骤1.4,回转执行步骤1.2,将步骤1.3更新后的聚类中心ci和元素uij带入公式(2);
步骤1.5,回转执行步骤1.1,将步骤1.1至步骤1.4重复K次,得到K个隶属度矩阵{U1,U2,...,Uk,...,UK};
所述步骤2具体包括:
步骤2.1,基于步骤1得到的隶属度矩阵Uk,根据公式(5)计算获得第k次聚类结果的相似矩阵SMk:
SMk=Uk(Uk)T (5)
式(5)中,相似矩阵SMk中的元素表示在第k次聚类结果中,样本xi和样本xj来自同一个聚类中心的联合隶属度;
步骤2.2,令相似向量由SV=Ω={H1,H2,...,Hm,...,HM}表示,且相似向量的值由相似矩阵SM对角线以上部分的元素构成,元素的个数
步骤2.3,利用公式(6)对所述相似向量SVk中的元素进行归一化处理,可得到:
在所述公式(6)中,为相似向量SVk中第m个元素,元素个数共有个,为所有之和,pX,k为归一化后的元素的值;
所述步骤3具体包括:
步骤3.1,令wk和Rk分别表示用户行为数据Dk的权重和相似向量SVk的可信度,其中,0≤wk≤1,wk为0表示“最不重要”,wk为1表示“最重要”;0≤Rk≤1,Rk为0表示“极度不可信”,Rk为1表示“完全可信”;结合权重wk与可信度Rk并根据公式(8)得到第K个相似向量的混合权重
在所述公式(8)中,wk表示用户行为数据Dk的权重,且当用户行为数据Dk产生时间越早,wk越小;
Rk为相似向量SVk的可信度,由聚类评价指标轮廓系数进行度量,根据公式(9)计算获得:
其中,a(i)表示样本xi与同一聚类簇中其他样本的平均距离,由公式(10)计算获得:
其中,b(i)表示样本xi与其他聚类簇的样本的平均距离的最小值,根据公式(11)计算获得:
在公式(10)和公式(11)中,d(i,A)和d(i,B)均由欧几里得距离计算获得,A表示与xi处于同一个簇的样本集合,B表示与xi处于不同簇的样本集合;
步骤3.2,利用公式(12)计算证据E(2)对H的支持度
在公式(12)中,和分别表示相似向量和的混合权重,pH,1和pH,2分别表示相似向量和中的元素;
步骤3.3,利用公式(13)将得到的所有进行归一化处理,并得到证据E(2)对H的信度:
在公式(13)中,信度pH,E(2)即为支持度归一化后的值,为的和;
步骤3.4,利用公式(14)计算证据E(2)的剩余支持度
步骤3.5,设前k个相似向量的合并结果由表示,根据式(15)计算E(k)对H的支持度
在公式(15)中,mH,E(k-1)表示标准化后支持度,由初始值代入并联合公式(16)进行迭代计算获得;mp(Ω),E(k-1)表示标准化后剩余支持度,由初始值代入公式(18),并将公式(18)和公式(15)代入公式(17)进行迭代计算获得;
步骤3.6,根据公式(19)对支持度进行归一化,得到pH,E(k):
在公式(19)中,表示所有的和,且能满足经过上述证据推理的迭代步骤,最终可以得到相似向量{SV1,SV2,...,SVK}的合并结果SV*=E(K)。
2.根据权利要求1所述的用于用户行为分析的基于证据推理的集成聚类方法,其特征在于,所述步骤4具体包括:
步骤4.1,将每个样本归为一类,此时T=N,其中T为聚类个数,N为样本个数,且样本之间的相似度利用上述证据推理的结果集成相似向量SV*表示;
步骤4.2,找出集成相似向量SV*中最大的元素max_SV*,将max_SV*所代表的样本xi和样本xj聚为一类,设此类别为Ct;
步骤4.3,利用公式(20)计算这个类与其他类的相似度:
在公式(20)中,sim(x,x')表示来自聚类簇Cs的样本x和来自聚类簇Ct的样本x'之间的相似度,并与相似向量SV*中元素的值一一对应,|Cs|和|Ct|分别表示聚类簇Cs和Ct中的样本个数;
步骤4.4,若此时聚类簇的个数为T,则停止计算,否则重复步骤4.2和步骤4.3直到最终聚类个数达到T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810814178.8/1.html,转载请声明来源钻瓜专利网。