[发明专利]一种基于频繁浏览序列的网站结构优化方法在审
申请号: | 201810320764.7 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108334646A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 王森;朱国丞;王婷;房鹏展 | 申请(专利权)人: | 焦点科技股份有限公司;东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/34 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于频繁浏览序列的网站优化方法,通过从Web日志数据中挖掘频繁浏览序列,发现从起始页面到目标页面之间的冗余无关的点击行为,达到网站结构优化;1)基于Spark平台,完成日志数据的预处理,获取用户访问序列;2)将频繁序列模式挖掘算法进行并行化改写,挖掘用户的频繁浏览行为;3)从频繁浏览序列出发,给出网站结构优化意见,从挖掘出的用户频繁浏览序列出发,寻找优化网站的线索;针对挖掘出的某一频繁浏览序列,理解为绝大多数用户按照这条路径搜索到目标页面,发现访问路径从起始页到目标页之间的冗余链接,将目标页面前移,优化网站的结构从而提升用户访问体验。 | ||
搜索关键词: | 浏览 网站结构 优化 网站 挖掘 目标页面 日志数据 用户访问 目标页 冗余 预处理 频繁序列模式 点击行为 访问路径 路径搜索 起始页面 挖掘算法 浏览行为 并行化 起始页 链接 改写 发现 线索 | ||
【主权项】:
1.一种基于频繁浏览序列的网站优化方法,其特征是,通过从Web日志数据中挖掘频繁浏览序列,发现从起始页面到目标页面之间的冗余无关的点击行为,达到网站结构优化;1)基于Spark平台,完成日志数据的预处理,获取用户访问序列;对网站服务器日志数据的预处理,实现网站服务器日志数据的采集、过滤、提取和生成用户点击流序列功能,为提高效率,该过程基于Spark平台集群实现并行处理,具体过程如下:步骤一、使用Flume进行日志数据采集,保存至HDFS中;步骤二、编写Spark程序,完成日志数据的过滤、会话识别和事务识别并行处理,并将经预处理后的用户点击流数据进行持久化,步骤如下:a)首先需要进行日志数据进行过滤,用户在网站请求页面时,服务器日志记录了请求页面信息脚本、样式表等其他冗余数据;需要根据日志数据的格式进行关键字过滤,删除后缀名为css、js、jpg、gif和请求状态码异常以及请求方式非GET的日志记录;b)然后进行会话识别,使用时间阈值切分(设为30min)和参照页(referer)混合方法,将过滤后的日志数据划分成在规定时间内的一组访问序列;c)最后使用最大向前引用算法(Maximal Forward Reference)将会话切分成在语义或功能上具有相关性、能表示一次访问意图的点击序列;d)将经预处理生成的用户点击流序列持久化到HDFS(Hadoop分布式文件系统)中;2)将频繁序列模式挖掘算法进行并行化改写,挖掘用户的频繁浏览行为;为优化网站结构,需要从生成的用户点击流序列中挖掘频繁浏览路径,基于Spark平台,将序列模式挖掘算法AprioriAll进行并行化改写,将需进行迭代计算的频繁‑k序列持久化到RDD(弹性分布式数据集)中,提升迭代计算的效率;并优化频繁序列的自连接策略,减少候选频繁序列的生成空间,具体步骤如下:a)首先从HDFS中加载经预处理之后的用户点击流序列数据集,分布到Spark的RDD中,并根据所设定最小支持度,经过滤生成频繁1序列,并持久化到内存,为提升后续迭代计算的效率,也需要将用户点击流数据集持久化到内存。b)接着通过生成的频繁k序列,进行自连接操作获得候选频繁(k+1)序列,然后扫描用户点击了数据集,过滤不满足最小支持度的序列,得到频繁(k+1)序列,不断执行上述迭代过程,直至没有新的频繁k序列生成为止,为提高内存资源的利用率,当频繁k序列生成后,需释放持久化到内存中频繁(k‑1)序列的RDD;c)为减少频繁序列通过自连接生成过多的候选序列,采用以下连接策略:对于频繁k序列集中的S1和S2两个序列,仅当S1的前k‑1项和S2的后k‑1项一样时,才将S1序列的第k项加到S2的结尾生成新的候选k+1序列;3)从频繁浏览序列出发,给出网站结构优化意见,从挖掘出的用户频繁浏览序列出发,寻找优化网站的线索;针对挖掘出的某一频繁浏览序列,理解为绝大多数用户按照这条路径搜索到目标页面,发现访问路径从起始页到目标页之间的冗余链接,将目标页面前移,优化网站的结构从而提升用户访问体验。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学,未经焦点科技股份有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810320764.7/,转载请声明来源钻瓜专利网。