[发明专利]一种融合用户行为及Web页面依赖关系的数据挖掘方法有效

专利信息
申请号: 202010262268.8 申请日: 2020-04-06
公开(公告)号: CN111460004B 公开(公告)日: 2023-04-14
发明(设计)人: 杨波;卫新洁;吴际 申请(专利权)人: 北方工业大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/22
代理公司: 北京永创新实专利事务所 11121 代理人: 李有浩
地址: 100043 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 用户 行为 web 页面 依赖 关系 数据 挖掘 方法
【说明书】:

发明公开了一种融合用户行为及Web页面依赖关系的数据挖掘方法,包括有将用户会话数据进行去除后缀的预处理,然后对用户行为数据分别进行页面执行顺序判断和互用访问信息判断处理,最后选取出同时满足页面执行顺序和访问信息互用的用户行为数据,并生成测试用例。该测试用例扩充至Web应用中,从而划分访问序列,达到提高日志挖掘的效率。

技术领域

本发明涉及网络页面的数据挖掘,更特别地说,是指一种从Web应用的访问日志(access log)中提取测试用例(test case)需要的访问流程和访问数据的挖掘方法,是一种融合多个用户(user)的用户行为(user behavior)及Web页面依赖关系的数据挖掘(datamining)方法。

背景技术

什么是数据挖掘(data mining),简单地说,数据挖掘是从大量数据中提取或“挖掘”知识,数据挖掘是信息技术自然演化的结果。演化过程的见证是数据作业界开发数据收集和数据库创建、数据管理以及数据分析与理解。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。

Web页面(web page)是指按照HTML格式组织起来的文件,以信息的形式出现,它可包括图形、文字、声音和/或视频等信息。

和传统的计算机系统相比,Web系统具有大规模、异构、分布、并发和平台无关的特性,使得对Web应用的测试要比传统程序的测试更加困难,对测试用例扩充方法也提出了新的挑战。与此同时,通过对Web系统运行过程和运行结果的分析往往能获得额外的信息,比如会话信息、页面的迁移信息、日志信息等。充分利用这些信息,可以发现访问者的使用方式以及系统中可能存在的问题,从而为进一步开展有针对性的测试提供了有价值的参考。

Web应用在运行过程中会接收到用户的访问从而产生大量的访问日志,日志中携带的数据具有真实、有效、数量多等特征。相比于刻意构造的访问,真实的访问能够反映用户的访问习惯特征,其访问流程和访问数据对于测试而言往往有更高的可用性和有效性。例如当用户访问购物网站时首先会输入用户名和密码登录网站,然后选择商品,最后付款。整个访问流程对于购物这一用户需求而言是有效的、可达的。Web应用的用户往往很多,在运行过程中能够收集到大量用户的访问流程和访问数据,这些信息为测试提供了原始材料。但与此同时由于数据量太大,如何进行信息筛选成为测试人员需要解决的问题。

发明内容

本发明提出的一种从Web应用的访问日志中提取测试需要的访问流程和访问数据的挖掘方法,该方法所要解决的是如何按照日志格式对日志内容进行解析;并提高日志挖掘的效率。

本发明的一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:

步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;

在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且

步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;

对所述用户-会话数据集合进行去除后缀处理,得到去除后缀处理后的用户行为数据,则构成了用户-行为数据集合,记为FUS,且

在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010262268.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top