[发明专利]一种基于频繁浏览序列的网站结构优化方法在审

专利信息
申请号: 201810320764.7 申请日: 2018-04-11
公开(公告)号: CN108334646A 公开(公告)日: 2018-07-27
发明(设计)人: 王森;朱国丞;王婷;房鹏展 申请(专利权)人: 焦点科技股份有限公司;东南大学
主分类号: G06F17/30 分类号: G06F17/30;G06F11/34
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210003 江苏省南京市高新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于频繁浏览序列的网站优化方法,通过从Web日志数据中挖掘频繁浏览序列,发现从起始页面到目标页面之间的冗余无关的点击行为,达到网站结构优化;1)基于Spark平台,完成日志数据的预处理,获取用户访问序列;2)将频繁序列模式挖掘算法进行并行化改写,挖掘用户的频繁浏览行为;3)从频繁浏览序列出发,给出网站结构优化意见,从挖掘出的用户频繁浏览序列出发,寻找优化网站的线索;针对挖掘出的某一频繁浏览序列,理解为绝大多数用户按照这条路径搜索到目标页面,发现访问路径从起始页到目标页之间的冗余链接,将目标页面前移,优化网站的结构从而提升用户访问体验。
搜索关键词: 浏览 网站结构 优化 网站 挖掘 目标页面 日志数据 用户访问 目标页 冗余 预处理 频繁序列模式 点击行为 访问路径 路径搜索 起始页面 挖掘算法 浏览行为 并行化 起始页 链接 改写 发现 线索
【主权项】:
1.一种基于频繁浏览序列的网站优化方法,其特征是,通过从Web日志数据中挖掘频繁浏览序列,发现从起始页面到目标页面之间的冗余无关的点击行为,达到网站结构优化;1)基于Spark平台,完成日志数据的预处理,获取用户访问序列;对网站服务器日志数据的预处理,实现网站服务器日志数据的采集、过滤、提取和生成用户点击流序列功能,为提高效率,该过程基于Spark平台集群实现并行处理,具体过程如下:步骤一、使用Flume进行日志数据采集,保存至HDFS中;步骤二、编写Spark程序,完成日志数据的过滤、会话识别和事务识别并行处理,并将经预处理后的用户点击流数据进行持久化,步骤如下:a)首先需要进行日志数据进行过滤,用户在网站请求页面时,服务器日志记录了请求页面信息脚本、样式表等其他冗余数据;需要根据日志数据的格式进行关键字过滤,删除后缀名为css、js、jpg、gif和请求状态码异常以及请求方式非GET的日志记录;b)然后进行会话识别,使用时间阈值切分(设为30min)和参照页(referer)混合方法,将过滤后的日志数据划分成在规定时间内的一组访问序列;c)最后使用最大向前引用算法(Maximal Forward Reference)将会话切分成在语义或功能上具有相关性、能表示一次访问意图的点击序列;d)将经预处理生成的用户点击流序列持久化到HDFS(Hadoop分布式文件系统)中;2)将频繁序列模式挖掘算法进行并行化改写,挖掘用户的频繁浏览行为;为优化网站结构,需要从生成的用户点击流序列中挖掘频繁浏览路径,基于Spark平台,将序列模式挖掘算法AprioriAll进行并行化改写,将需进行迭代计算的频繁‑k序列持久化到RDD(弹性分布式数据集)中,提升迭代计算的效率;并优化频繁序列的自连接策略,减少候选频繁序列的生成空间,具体步骤如下:a)首先从HDFS中加载经预处理之后的用户点击流序列数据集,分布到Spark的RDD中,并根据所设定最小支持度,经过滤生成频繁1序列,并持久化到内存,为提升后续迭代计算的效率,也需要将用户点击流数据集持久化到内存。b)接着通过生成的频繁k序列,进行自连接操作获得候选频繁(k+1)序列,然后扫描用户点击了数据集,过滤不满足最小支持度的序列,得到频繁(k+1)序列,不断执行上述迭代过程,直至没有新的频繁k序列生成为止,为提高内存资源的利用率,当频繁k序列生成后,需释放持久化到内存中频繁(k‑1)序列的RDD;c)为减少频繁序列通过自连接生成过多的候选序列,采用以下连接策略:对于频繁k序列集中的S1和S2两个序列,仅当S1的前k‑1项和S2的后k‑1项一样时,才将S1序列的第k项加到S2的结尾生成新的候选k+1序列;3)从频繁浏览序列出发,给出网站结构优化意见,从挖掘出的用户频繁浏览序列出发,寻找优化网站的线索;针对挖掘出的某一频繁浏览序列,理解为绝大多数用户按照这条路径搜索到目标页面,发现访问路径从起始页到目标页之间的冗余链接,将目标页面前移,优化网站的结构从而提升用户访问体验。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学,未经焦点科技股份有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810320764.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top