[发明专利]面向互联网的用户交互痕迹捕获、存储和检索系统及方法有效
| 申请号: | 201811074579.0 | 申请日: | 2018-09-14 |
| 公开(公告)号: | CN109284435B | 公开(公告)日: | 2020-05-26 |
| 发明(设计)人: | 夏乾臣;吕江花;李岳檑;孟祥曦;马世龙 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 互联网 用户 交互 痕迹 捕获 存储 检索系统 方法 | ||
本发明是一种面向互联网的用户交互痕迹捕获、存储和检索的系统及方法,属于互联网数据处理领域。本发明系统包括业务逻辑层、云存储管理层和数据存储层,云存储管理层由存储接口管理子系统、集群管理子系统和存储管理子系统构成。本发明方法包括:对用户行为数据通过界面窗口树建模来采集记录,每个用户访问的轨迹为界面窗口树的一个实例;通过为每个存储服务器节点建立存储目录树,根据用户行为数据类型,实现统一分布式存储;对非结构化数据以单个文件节点存储;通过用户信息和时间戳检索分布式存储系统获得用户数据。本发明解决了用户关键数据的采集,且更加精确,解决了复杂的数据类型差异化存储的问题,数据及访问界面的存储及检索更加高效。
技术领域
本发明属于互联网数据技术领域,具体涉及一种面向互联网的用户交互痕迹捕获、存储和检索的系统及方法。
背景技术
随着互联网技术的快速发展与普及应用,网络信息井喷式增长,在此复杂分布式环境中,海量用户产生数以万计无序、复杂的信息,用户行为复杂多变,应用系统尤其是电商服务平台,采集用户的信息尤为重要,挖掘用户兴趣和潜在的知识成为分析用户行为的一个目标。当前的网站用户交互行为数据主要有四种采集方式:服务器日志、JavaScript页面标签,包嗅探器和代理服务器。服务器日志方式中,用户发送页面请求到Web 服务器,当Web 服务器收到请求时,会将访问记录添加到日志中,并通过特定的应用程序分析日志,经过处理的日志数据存储在数据库中,管理员经过数据分析处理,形成网站分析报表。不同于web 日志记录,JavaScript 页面标签从http 请求开始,JavaScript 标记返回访问者的页面代码,该代码包含将在页面显示时执行的特殊JavaScript 代码。此代码从访问者Cookie(包含访问时间、浏览器信息、工具供应商给予当前访问者的用户ID 等)检索详细信息,并发送给工具提供商的数据收集服务器,数据收集服务器处理收集的数据并将其存储在数据库中。包嗅探器方式中,在来自网站访问者的请求到达Web 服务器之前,它将通过数据包嗅探器,然后数据包嗅探器将请求发送到Web 服务器。包嗅探器得到的数据在通过工具供应商的处理服务器的处理之后将被存放于数据库。代理服务器方式中,代理端可以识别来自访问多个服务器多用户的实际http请求,代理端的缓存可以减低客户端访问对网络的装载时间,降低对web服务器的访问,减少服务器端的工作负载。
用户浏览过程需要加载大量图片、视频、商品描述等多种类型的文件,同时产生一系列的中间数据。这些浏览界面和数据都作为用户浏览痕迹,用户操作序列作为用户行为的实际动作顺序记录。用户数据和操作序列对用户行为习惯分析有着至关重要的重要,能更精确的反应用户特征,刻画用户画像。用户数据分为结构化数据和非结构化数据两类,数据的合理存储可以提高文件的访问效率,数据类型的多样性和存储的差异性增加了数据的检索难度。在云存储架构的基础上,实现各种数据采集、录入以及检索和应用。平台需要对各种业务活动进行分析与预测,针对不同用户个性化推介产业与产品相关信息,促进行业的发展,而当前的用户行为采集、存储、分析服务又受到很多限制:
1、网络信息多样化的限制:对于门户类的网站信息繁多,首页导航,菜单,各个应用平台内容不断增量,用户面对大量的信息无从下手,不能快速定位到自己感兴趣的内容,浪费大量时间且效率低下。
2、数据源获取方式的限制:用户交互行为方式多样,按照采集数据源的不同,分为客户端数据,代理端数据和服务器端数据。服务器端日志由服务器自动生成且实时记录,可以获得不同客户端,不同用户的记录,但多个用户共享一个IP的情况下,则无法区分用户身份,而且当用户请求的信息在缓存中时,请求就不会到达服务器,造成服务器端获取数据的不完整。客户端日志通过客户端软件来完成,能获取到单个客户端的行为记录,但是软件对操作系统和浏览器的兼容性有比较高的要求。基于代理的日志记录方法需要获取所有请求网页的信息,支持SSL的编码,cookie的管理以及JavaScript的使用,但js可以动态的创建网页链接,且这些链接并不指向代理,代理不能捕获所有的用户访问记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811074579.0/2.html,转载请声明来源钻瓜专利网。





