[发明专利]透过分析网页结构抓取网站信息的方法无效

专利信息
申请号: 200880017826.1 申请日: 2008-05-29
公开(公告)号: CN101689176A 公开(公告)日: 2010-03-31
发明(设计)人: 崔文圣;韩万镇;金泰均 申请(专利权)人: 怡斯福乐株式会社
主分类号: G06F17/00 分类号: G06F17/00
代理公司: 北京华夏博通专利事务所 代理人: 刘 俊
地址: 韩国首*** 国省代码: 韩国;KR
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 透过 分析 网页 结构 抓取 网站 信息 方法
【说明书】:

技术领域

发明涉及一种网页结构分析方法,更具体地,本发明涉及一种透过网页结构分析以确定网站信息的方法,该方法如同一个轨迹程序可以分析网页结构,该轨迹程序预先安装于客户端及服务器,当每次网页作动或存取时产生一特别讯息。该方法可以藉由使用客户端-服务器系统的使用者确定存取至特定网页以及网络漫游路径,然后制作一使用此结果的数据库,从而确定例如对于网站的存取状态、使用者感兴趣的领域等信息,并改善客户关系管理(Customer RelatIonshIp Management,CRM),并标签客户管理。

背景技术

最近几年,记录分析(loganalysIs)已被广泛的使用于侦查信息,例如:一使用者对于一特殊网页的存取状态。记录分析基于如访客人数、浏览网页次数、网络cookIe值(cookIeValue)等的信息分析来提供信息以确定一网络状态。

记录分析被分类为:(1)一种记录文件插入方法,直接将一记录文件插入管理特殊网页的网络服务器中,再产生如在记录文件中的存取信号,再基于该信号产生数据并分析该数据,(2)一种码插入方法,将描述法及/或码插入一网站中,再基于该码的数量产生数据,并分析该数据,以及(3)一间接记录分析方法,分析外部的统计资料。

该记录文件插入方法的缺点在于当使用者(存取该服务器者)数量增加,该纪录文件数据量变的很大,则此作业必须委托一特殊的分析组织。该码插入方法适合用于被由较少数量的访客所存取的网站,但缺点在于如果存取此网站的访客数目超过预定数目的时候,比起该记录文件插入方法,此方法的工作量会变的很大。

因为该记录分析是由必须将该等码及/或记录文件插入一网站这样的方式所执行,故其可由一网站管理者使用来只检查他/她管理的网站的使用状态。换言之,该传统的记录分析只可执行一受限的管理中心分析。

当一管理者需要策略上地确定竞争同业的网站与他/她所拥有的网站的使用状态,以侦测哪些网站受欢迎、在该些网站中和网页中的哪些使用者有较高的兴趣、哪些网站由广告商所赞助,并经由使用者的网络漫游周期来分析客户关系管理(CRM)时,除了该管理者所拥有的网站、该管理者必须确定网站的存取状态。然而,该提供管理中心分析的传统记录分析无法获得有关其它网站使用状态的信息或有关顾客喜好的网站的信息等。

当网络营销被迅速的开发时,比起竞争同业,该传统的记录分析能使一网站管理者只能够确定他/她管理的网站的存取状态,而无法允许该管理者建立进阶的营销策略。再者,该传统的记录分析未提出可以迅速处理使用者需求的方法。因此,分析网站需要一个新的方法。

因应此需求,例如,已建议一种确定在使用者项目中的网络漫游状态与网络漫游路径而非确定管理网站的管理者的方法。换言之,该方法基于一使用者特殊族群可以撷取有关网络存取的信息。

为了确定一特殊使用者是否存取一特殊网站以及为了确定该使用者网络漫游路径,前导过程需被执行:需分析由使用者存取的该网站的特殊网页结构,以及需产生与该被分析的网页结构匹配的存取信号并处理所有信号。

通常,一网页被设计为使用框架集标签(framesettags)和/或I框架标签(I frametags)的一单一页面或一复合式页面。

一单一页面为仅使用一个网站位置(UnIform Resource Locator,URL)来连接一单一网络服务器的网页型态。也就是说,一单一页面具有最普通的结构并为不需使用卷标的超文件标记语言(html)页面,例如框架集(frameset)或I框架(I frame)。一复合式页面为使用不同URL来连接一个网络服务器或复数个网络服务器的网页型态。一复合式页面为一使用标签的网页,例如frameset或I frame。该主页面辨别页面导览并引用在网址列(addressbar)中对应URL的页面。该次页面由在该主页面中的frameset或I frame产生。

因特网的网站皆是由一单一网页和/或一复合式网页所组成。该网页被连接至各个网站,因此使用者可以在这些网站间作动。使用者在网页下载期间可以从一个网页作动至另一个网页。使用者亦可在当一网页在被完全下载前就被终止时,从一个网页作动至另一个网页。

为了分析一网页结构,该传统方法需优先解决下列问题:

(1)由于藉由一单一网页和/或一复合式网页来设计网页且该等网页根据使用者的网络漫游被重复作动,故须根据该网页型态来精确的分析网页结构。

(2)由于该复合式页面包含复数个次页面且只有在所有次页面都被载入时整个页面才可被完全载入,故需辨别复合式页面中的次页面。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于怡斯福乐株式会社,未经怡斯福乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200880017826.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top