[发明专利]社交网站交互行为收集检测方法在审
申请号: | 201511008360.7 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105404697A | 公开(公告)日: | 2016-03-16 |
发明(设计)人: | 董政;吴文杰;陈露;李学生 | 申请(专利权)人: | 成都陌云科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00;G06Q30/02 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 网站 交互 行为 收集 检测 方法 | ||
1.一种社交网站交互行为收集检测方法,其特征在于,包括:
对用户在网站中的日志进行识别分析,提取用户端缓存数据的相关字段,与识别出的用户会话结合进行用户行为检测。
2.根据权利要求1所述的方法,其特征在于,所述对用户在网站中的日志进行识别分析,进一步包括:
用表root来存储已经处理过的记录的URL及其访问时间,用Reference表示用户是从哪一个页面链接到当前页面,则满足下面两个条件A和B的记录判断为属于同一个会话:
A:当前记录的Reference在root表中出现过;并且
B:当前记录的访问时间和root表中同样URL记录的访问时间差不超过预定时间;
如果root集合中有多条记录的URL和己经处理的记录的Reference相匹配,则取与该条记录时间差最小的记录;
然后按照以下过程进行会话识别:
1)在日志中添加一个会话标识字段SID,同时创建一个root表,表的记录格式为<己访问记录URL,时刻Time,会话标识SID>;
2)读入一行新记录R,判断其是否为第一条记录,如果是第一条记录,转3);如果不是第一条记录转4);
3)将记录R的URL和Time插入root表,新建SID,即root新增一条记录,并将该SID的值赋给记录R,返回步骤2);
4)判断记录R的Reference字段是否为空,若为空值,则转3);若非空,转5);
5)提取记录R的Reference字段的值,并遍历root表,检查R的Reference值是否在root的URL字段中存在,若不存在,则转3),否则,转6);
6)遍历root表时,检查R的Reference值与root表URL字段是否有多条记录相同,如果只有一条记录,记作S,则转7);否则转8);
7)将记录R的Time值与root表中记录S的Time值进行比较,如果时间差的值大于预设时间,则转3);否则,将记录R的URL和Time字段插入root表,并将记录S的SID赋给此记录R;
8)将6)中得到的多条记录的Time字段与记录R的Time字段进行比较,取与记录R的Time字段值最近的记录,记作S,转7)。
3.根据权利要求2所述的方法,其特征在于,所述提取用户端缓存数据的相关字段,进一步包括:
将每个网站域名下的客户端缓存数据中保存的与用户名相关的字段设置成一个规则表;在日志中增加了一个Name字段作为客户端缓存数据提取的内容,将该字段非空的日志中每一个不同的Name的第一个会话作为每一个用户的初始聚类中心;
将R={rl,r2,...,rn}表示n条会话记录组成的日志集合;r=[SID,IP,ACC,Agent,Name]表示一条会话记录;
DOM(IP)={IPl,IP2,...,IPn}是字段IP的值域,其中n是属性IP所包含的不同IP值的个数;任意一条会话记录ri∈(1<i<n)可以被r描述为ri=[SIDi,IPi,ACCi,Agenti,Namei],其中IPi∈DOM(IP);
令ri,rj∈R,分别描述为ri=[SIDi,IPi,ACCi,Agenti,Namei],rj=[SIDj,IPj,ACCj,Agentj,Namej],则ri与rj之间简单匹配的差异度定义为:
d(xi,xj)=δ(IPi,IPj)+δ(ACCi,ACCj)+...+δ(Namei,Namej)
其中函数δ(X,Y)表示为:若X=Y,则δ(X,Y)=1;若X≠Y,则δ(X,Y)=0;
设定k个聚类中心记录,记作Z=[Z1,Z2,...,Zk],Zi(l<i<k)表示每一个类的中心记录,即每个用户的聚类中心;
按照下述步骤进行用户识别:
1)选择k条会话记录作为聚类中心Z,并对其增加一个字段UserID,且每条记录的UserID值均不同;k=k1+k2,其中k1为N条会话记录中非空Name的去重数目,假设其中n1条会话的Name字段非空,则k2=(N-n1)×k1/n1,则记录中非空Name的第一个会话作为每一个用户的聚类中心,其中前k1条记录的Name字段值是唯一标识的,后k2条记录的Name字段值为空;
2)将剩余的每一条会话记录的字段与k个聚类中心的字段进行比较,如果相同,则为0,否则记作1,然后将字段的差值求和,计算差异度,选择与k个聚类中心差值和最小的类,将该类中的UserID赋给这条记录的UserID字段;
3)对每一类的会话记录的每一条记录计算其与该类其他记录的差值和,找出其中差值和最小的记录,然后将其作为该类的聚类中心,并修改其UserID的值,使其与己计算类的聚类中心的UserID不同;
4)迭代上述步骤2)和3),直到前一次的聚类中心与下一次的聚类中心是相同的会话记录为止;
最后得到按用户聚类的日志,共k个用户;当会话记录ri属于第l个用户时,检查该会话的Name字段是否和该用户的用户中心即聚类中心Zl的Name字段相同,如果不同,则将其修改为Zl的Name字段值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司,未经成都陌云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511008360.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于硬件在环仿真的风电机组建模方法
- 下一篇:图像形成装置