[发明专利]一种基于序列预测的网页布局优化方法在审
申请号: | 201810320772.1 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108509640A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 张杰;郑钰婷;房鹏展;王婷 | 申请(专利权)人: | 焦点科技股份有限公司;东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列预测 用户访问模式 模型模拟 模型训练 网页布局 网站结构 网页 预处理 优化 递归神经网络 访问日志数据 数据预处理 日志数据 数据格式 数据转换 算法要求 序列数据 训练模型 用户访问 原始数据 超链 递归 构建 网站 匹配 删除 网络 改进 | ||
一种基于序列预测的网页布局优化方法,利用用户的访问日志数据,使用深度递归神经网络来训练得到序列预测模型,使用序列预测模型模拟用户访问模式,通过比较现有网站结构网页超链布局与用户访问模式的匹配程度,对网站的结构和网页的布局进行改进;包括以下步骤:数据预处理,序列预测模型训练,网站结构优化:首先对用户的web日志数据进行预处理:在原始数据上删除一些无关的、错误的数据、提取出有用的域,将数据转换为后续算法要求的数据格式。序列预测模型训练:构建一个深层的递归生成网络作为序列预测网络,使用序列数据训练模型,得到序列预测模型;获得序列预测模型后,使用模型模拟用户访问。
技术领域
本发明是一种网页内容布局优化的技术方法,主要应用于电商网站信息结构评估和优化领域。
背景技术
随着互联网、电子商务的兴起,越来愈多的人通过互联网获取服务合知识。在信息时代,互联网上每天产生数以亿计的内容,如何对这些内容进行有效组织是互联网服务提供者面临的一个重要挑战。对于一个电商网站而言便是如何组织网站的层次结构,使得网站商品组织更加清晰明确。
目前大部分网站遵循的是一种检索加导航的方案进行网站内容组织。高效准确的检索有利于目标明确的用户快速定位商品,而商品导航则对目标不明确者提供了商品路径导航服务,挖掘潜在购物需求。好的商品路径组织,可以使用户毫不费力的跳转到另一个相关页面,这需要对网站页面超链接进行精细化调整,然而目前并太多好的技术方法。基于序列模式挖掘是一种有效的解决办法,序列模式挖掘技术旨在发现时间上具有先后顺序的数据项,在web日志挖掘中主要寻找用户会话中在时间上有先后关系的页面请求,通过此方法,web服务提供者可以预测未来的访问模式,捕捉常用的导航路径,然后改进网站的组织结构。
传统的基于序列挖掘的方法旨在找到用户经常访问的具有前后顺序的页面,实质上是寻找频繁序列的过程,然后根据频繁序列对网站结构进行优化。
发明内容
本发明目的是,从另一种角度解决网站组织结构优化问题,相较于获得频繁序列的方式挖掘频繁模式,本发明基于序列数据预测方法,即给定用户访问序列寻找预测其下一个最可能的被访问的页面,然后通过比较当前页面中超链是否包含最可能访问的页面来判断页面超链是否合理,以及提供改进意见。
本发明解决网站结构以及页面布局优化的技术方案为:基于序列预测的网页布局优化方法,利用用户的访问日志数据,使用深度递归神经网络来训练得到序列预测模型,使用序列预测模型模拟用户访问模式,通过比较现有网站结构网页超链布局与用户访问模式的匹配程度,对网站的结构和网页的布局进行改进。
整个方案主要包括以下步骤:数据预处理,序列预测模型训练,网站结构优化等。
首先需要对用户的web日志数据进行预处理:在原始数据上删除一些无关的、错误的数据、提取出有用的域,将数据转换为后续算法要求的数据格式;
Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程。其中数据清洗过程是去除掉用户访问日志中错误的无关的数据,去除不相关的数据字段仅保留有价值信息;用户识别则是从web日志数据中识别出不同的用户;会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集;数据规范化是将每个网页按出现频率排序,并用id进行表示,将访问序列变为id序列,便于后续序列预测模型使用。
数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列,作为训练数据。
序列预测模型训练:本方案构建一个深层的递归生成网络作为序列预测网络,使用序列数据训练模型,得到序列预测模型。本方案使用的是一个5层的长短时记忆网络(Long Short-Term Memory Networks),用来预测序列的下一个页面的概率分布,其中概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学,未经焦点科技股份有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810320772.1/2.html,转载请声明来源钻瓜专利网。