[发明专利]基于增量Q-Learning的学习方法及系统无效
申请号: | 200810066627.1 | 申请日: | 2008-04-11 |
公开(公告)号: | CN101261634A | 公开(公告)日: | 2008-09-10 |
发明(设计)人: | 叶允明 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N1/00 |
代理公司: | 深圳市科吉华烽知识产权事务所 | 代理人: | 胡吉科 |
地址: | 518055广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增量 learning 学习方法 系统 | ||
技术领域
本发明涉及一种基于增量Q-Learning的学习方法及系统,是一种应用于从万维网上快速有效的检索用户所需信息的一种增量Q-Learning学习方法及系统。
背景技术
Web爬虫(Web Crawler或Spider,Robot)是一种信息收集系统。它通过下载Web页面,并沿着已爬行页面中的超链接来遍历Web,收集Web页面。一般Web爬虫通常用于通用搜索引擎中,作为搜索引擎的页面收集系统。它通常以宽度优先的模式(即无选择性)遍历Web,力求在限定的爬行周期内收集到尽可能多的Web页面。
Web爬虫采用特定的爬行(Crawling)策略,周期性的收集尽可能多的Web网页,然后提交给自动索引系统;索引系统根据定义的索引要求建立基于相应检索元的索引库;用户通过系统提供的查询接口访问搜索引擎;查询系统根据用户提交的查询条件搜索索引库,获得检索结果,并且采用一定的评价算法计算用户查询条件和检索结果之间的相关性,检索结果根据相关度进行排序后按高相关度优先的顺序返回给用户。
爬虫的工作过程是一个沿着存在于Web页面之间的超链接遍历Web的过程。作为通用搜索引擎的页面收集代理,一般Web爬虫在选择下一个要爬行的URL(Uniform Resoure Locator统一资源定位器、网络地址)时,是无目的性的,即一般采用FIFO(First-in First-out先进先出)的顺序从URL队列中逐个取出URL,其爬行策略是无选择性的。这是由通用搜索引擎的目标决定的,即要求在有限的时间内收集到尽可能多的页面。它没有预定义的目标主题的导向,因此对Web的遍历过程是没有选择性的。
主题爬虫(Topical Crawler),又称为聚焦爬虫(Focused crawler)或主题驱动的爬虫(Topic-driven crawler)。它是一种智能的Web爬虫,因此它的基本工作过程与一般的爬虫是相似的。
然而,与一般Web爬虫不同的是,主题爬虫在进行爬行时是目标主题驱动的,在遍历Web时是有选择性的,其目标是使爬行结果的“收获率”最大化。“收获率”的定义与传统信息检索领域中的查准率(或精度)相似,可计算为爬行结果页面集中主题相关页面所占的百分数。主题爬虫的爬行过程可以看作是一个有选择性的遍历Web图的过程,它从一组种子URL出发,沿着Web页面上的超链接不断爬行网页。在爬行过程中,系统要判断已爬行到的页面是否是主题相关的,并通过超链接分析算法(或其它优化算法)确定下一个被访问的候选URL(候选URL存放在URL队列中,是从已收集的网页中抽取出来的,并且未经爬行)。在遍历Web图时,主题爬虫就是要确保尽可能多的访问那些属于相关集的节点,同时尽可能避免搜集到那些属于不相关集的节点。
虽然现有的主题爬虫技术已经取得了令人鼓舞的进步,但从系统性能上看还难尽如人意。特别是对于比较“窄”的目标主题来说,系统的爬行收获率还需要较大的提高。纵观现有的主题爬虫方法,它们大部分都依赖于有监督或半监督的学习算法(例如朴素贝叶斯方法,Q-Learning),从而能够从初始的目标主题信息(特别是样本页面)中学习并构造页面(超文本)分类模型和超链接评价模型,而生成的模型通常是静态的,在爬行过程中得不到更新,即它们缺乏可在线增量学习的能力。这种静态的策略是影响主题爬虫性能以及可用性的主要原因:
首先,由于缺乏增量学习能力,初始样本页面(包括主题层次目录中的页面和用户提供的样本页面)就成为决定超文本分类器和超链接评价器性能的主要因素。然而,要提供一个全面的、高质量的初始样本集通常是比较困难且耗时的,因此初始样本通常是很有限的,不足以构造精确的超文本分类器和超链接评价器,从而影响了系统的性能。
基于有监督学习算法的超文本分类器在训练时既需要正例样本,也需要大量的反例样本。然而,要在爬行开始时就提供足够的反例以完全覆盖反例主题是很困难的。例如,假设目标主题是“计算机”,那么如何找到足够全面的反例页面来表示“所有非计算机”呢?虽然主题层次目录可以在一定程度上解决这个问题,即将目录树中的某个结点标识为正例集(目标主题),而所有其它结点标识为反例集,但是由于主题层次目录所覆盖的主题范围比较有限,因此目标主题可能无法用它来表示,特别是对于那些“窄”的目标主题,这种方法就存在明显的局限性。
Web页面的内容以及不同主题页面集的超链接结构是多种多样的,这就要求页面分类模型和超链接评价模型能够在爬行过程中得到不断的更新和调整,以适应异构的爬行环境。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810066627.1/2.html,转载请声明来源钻瓜专利网。