[发明专利]一种基于日志挖掘的网站分类目录优化分析方法有效
申请号: | 201410201968.0 | 申请日: | 2014-05-13 |
公开(公告)号: | CN105095281B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 吴鹏;张丽军;李小军;夏子然;丁慧君;高庆宁 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 日志 挖掘 网站 分类目录 优化 分析 方法 | ||
本发明公开了一种基于日志挖掘的网站分类目录优化分析方法。该方法首先对网站日志数据进行预处理,所述日志数据指的是服务器上记录的一系列网页访问数据集合,通过预处理从中提取出用户通过特定网站获取信息的目录路径;然后利用“基于浏览路径顺序的方法VOB”计算任意两个目录路径间的相似度,直至构造出目录路径相似度矩阵;再利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类,从而将目录路径对应的用户聚为不同类别;最后,挖掘出每类用户期望的网站分类目录体系,并与原有分类目录体系对比分析。通过上述步骤可以挖掘出符合用户期望的网站分类目录体系,为网站优化提供定量决策支持。
技术领域
本发明涉及一种网站分类目录优化分析方法,特别是从用户角度出发,基于日志挖掘的一种分类目录优化分析方法。
背景技术
网站分类目录设计的是否符合用户期望直接影响用户对网站的满意度,进而影响用户使用该网站的意愿。网站分类目录优化,是在评价网站现有分类目录的基础上决定是否需要调整网站已有信息分类体系,若需要调整者确定如何调整。
当前针对网站分类目录体系优化分析方法的研究还多以调查问卷、电话访谈等传统研究方法为主,研究方法本身的不足以及数据的有限性严重制约了研究成果的可用性。目前大多数网站采用传统的用户调研方式进行用户研究,而传统方法如调查问卷、电话访谈等基本都是通过设置特定任务或问题让用户完成或回答,再对用户的完成结果进行定性定量的分析。这些方法中都是人既作为研究的主体,又作为研究的客体,制约和影响着调查的可靠性和适用性,并且其耗费成本高、获得信息较宏观,获得数据量也相对比较有限,从而很难全面地搜集用户对网站的认知。
此外,关于网站分类目录体系的研究多以理论为主,侧重于分类目录的功能介绍、优缺点分析、当前网站分类目录所使用的分类方法的介绍以及分类目录不足之处等理论方面的简单介绍,缺少对用户认知的关注,缺少相关实证研究。为了使网站分类目录设计的更加符合用户期望,符合用户的心智模型,网站信息组织需要从“以系统为中心”向“以用户为中心”转换,从用户认知角度研究网站信息组织。
总的来说,网站分类体系优化方法存在如下问题:(1)很难全面收集用户关于网站分类目录的认知。(2)需要从“以系统为中心”向“以用户为中心”转换,从用户认知角度研究网站信息组织。
发明内容
本发明所解决的技术问题在于提供一种基于日志挖掘的网站分类目录优化分析方法。
实现本发明目的的技术解决方案为:一种基于日志挖掘的网站分类目录优化分析方法,步骤如下:
步骤1、对网站日志数据进行预处理,具体为:
步骤1-1、对日志数据字段进行净化处理,具体是将原始日志数据中的请求协议字段、文件名字段这些与挖掘目的不相关的字段删除,最终保留用户的IP地址IPNUMBER、访问时间VISIT-TIME、浏览者的cookie信息COOKIE、访问网址URL、访问状态STATUS以及当前访问网址的来源网址REFERER;
步骤1-2、对日志内容进行净化,具体为:判断访问状态STATUS的属性值,若属性值不以2、3开头,则删除该属性值对应的日志项:之后判断访问网址URL和当前访问网址的来源网址REFERER中是否包含字符串“-catalog”或“catlist”,若均没有包含,则删除该属性值对应的日志项;
步骤1-3、对网址进行统一编号,具体为:将日志中涉及的访问网址URL、当前访问网址的来源网址REFERER按出现次序用阿拉伯数字从小到大统一编号,若同一网址出现多次则按网址第一次出现的次序编号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410201968.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种客户端数据的采集方法和装置
- 下一篇:文件推荐方法和装置