[发明专利]一种基于序列预测的网页布局优化方法在审

申请号：	201810320772.1	申请日：	2018-04-11
公开（公告）号：	CN108509640A	公开（公告）日：	2018-09-07
发明（设计）人：	张杰;郑钰婷;房鹏展;王婷	申请（专利权）人：	焦点科技股份有限公司;东南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210003 江苏省南京市高新***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于序列预测的网页布局优化方法，利用用户的访问日志数据，使用深度递归神经网络来训练得到序列预测模型，使用序列预测模型模拟用户访问模式，通过比较现有网站结构网页超链布局与用户访问模式的匹配程度，对网站的结构和网页的布局进行改进；包括以下步骤：数据预处理，序列预测模型训练，网站结构优化：首先对用户的web日志数据进行预处理：在原始数据上删除一些无关的、错误的数据、提取出有用的域，将数据转换为后续算法要求的数据格式。序列预测模型训练：构建一个深层的递归生成网络作为序列预测网络，使用序列数据训练模型，得到序列预测模型；获得序列预测模型后，使用模型模拟用户访问。
搜索关键词：	序列预测用户访问模式模型模拟模型训练网页布局网站结构网页预处理优化递归神经网络访问日志数据数据预处理日志数据数据格式数据转换算法要求序列数据训练模型用户访问原始数据超链递归构建网站匹配删除网络改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于序列预测的网页布局优化方法，其特征是，利用用户的访问日志数据，使用深度递归神经网络来训练得到序列预测模型，使用序列预测模型模拟用户访问模式，通过比较现有网站结构网页超链布局与用户访问模式的匹配程度，对网站的结构和网页的布局进行改进；包括以下步骤：数据预处理，序列预测模型训练，网站结构优化：1)首先需要对用户的web日志数据进行预处理：在原始数据上删除一些无关的、错误的数据、提取出有用的域，将数据转换为后续算法要求的数据格式；Web日志数据预处理细分为数据清洗、用户识别、会话识别、数据规范化等过程；其中数据清洗过程是去除掉用户访问日志中错误的无关的数据，去除不相关的数据字段仅保留有价值信息；用户识别则是从web日志数据中识别出不同的用户；会话识别是将每个用户的访问日志按照每次会话分割成一个个会话子集；数据规范化是将每个网页按出现频率排序，并用id进行表示，将访问序列变为id序列，便于后续序列预测模型使用；数据预处理阶段将从web日志中提取出用户按会话按时间访问的页面序列数据，作为训练数据；2)序列预测模型训练：构建一个深层的递归生成网络作为序列预测网络，使用序列数据训练模型，得到序列预测模型；使用一个长短时记忆网络(Long Short‑Term Memory Networks)，用来预测序列的下一个页面的概率分布，其概率值的大小反映了日志数据中用户在当前访问序列下访问下一个页面的可能程度；3)获得序列预测模型后，使用模型模拟用户访问，比较访问模式与网站结构的匹配程度优化网站结构；实施方案为：(1)随机选取一个起始页面，预测下一个页面的访问概率分布；(2)比较当前页面中超链接是否包含预测页面概率top100的页面，以及这些top100页面超链接在当前网页中的位置，改进当前页面布局；(3)从下一跳预测结果中随机选取一个进行访问，重复(1)、(2)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学，未经焦点科技股份有限公司;东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810320772.1/，转载请声明来源钻瓜专利网。

上一篇：表信息管理方法、装置及可读存储介质
下一篇：文件备份的方法、装置、服务器以及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于序列预测的网页布局优化方法在审

专利文献下载