[发明专利]一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法有效
申请号: | 201811442700.0 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614534B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 李石君;黎文丹;杨济海;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06N3/06 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 增强 聚焦 爬虫 链接 价值 预测 方法 | ||
1.一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,包括:
步骤1,用户根据需要配置主题相关的种子站点URL集合、配置主题相关关键词及其对应权重;在聚焦爬虫启动时,系统自动载入主题相关URL和主题关键词;
步骤2,构建两个具有相同结构的神经网络,并初始化各层神经元的权重和偏置;构建大小为MEMORY_SIZE的记忆库,用于存放历史信息;指定训练集的大小为BATCH_SIZE;
步骤3,给每个种子站点URL设置一个默认链接价值,并将种子站点URL放入待爬行队列;
步骤4,在待爬行队列中按URL链接的链接价值大小逆序排列,链接价值包含了对链接目标网页主题相关度的预测和从该链接出发能找到主题相关页面的潜力的预测,选择链接价值最大的URL链接作为爬行目标;
步骤5,下载器下载爬行目标对应的目标网页,从网页中抽取网页内容相关信息并计算网页主题相关度;
步骤6,从目标网页中抽取子链接URL,将子链接的文字信息和结构信息特征化,得到子链接特征向量;子链接的特征项包括以下八项:URL锚文本主题相关度、URL周围文字主题相关度、URL所在页面主题相关度、URL所在页面子链接锚文本主题相关度均值、父URL的链接价值、距离为1的父页面主题相关度均值、距离为2的父页面主题相关度均值、距离为3的父页面主题相关度均值;
步骤7,用增强学习方法和两个结构相同参数不同的神经网络计算URL的链接价值实际值和估计值,并计算误差,用梯度下降法优化神经网络参数并更新两个神经网络的参数;
步骤8,将子链接及其相应价值估计值放入待爬行的优先队列;
步骤9,重复步骤4至步骤8直至满足停止条件;当满足以下任意条件即可停止:
条件一、超过爬行时间阈值;
条件二、爬行深度超过深度阈值;
条件三、无法获取新的URL地址。
2.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤2具体操作方法是:构建的两个三层神经网络中,神经网络的第一层为输入层,神经元个数与特征向量的维数一致;神经网络的第二层为隐藏层,具有至少16个神经元;神经网络的第三层为输出层,只有一个神经元,使用relu作为激活函数。
3.根据权利要求1所述的一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,其特征在于,步骤5具体包括以下子步骤:
步骤5.1、抽取网页不同位置的文字信息:能够概括和表达网页内容主题的文字信息包括:网页URL链接锚文本、网页标题、网页描述信息、网页关键词信息、网页正文内容;网页标题可以从title标签中抽取,网页描述信息可以从meta name=”description”标签中抽取,网页关键词信息可以从meta name=”keywords”标签中抽取;
步骤5.2、构造位置-关键词词频矩阵:
位置-关键词词频矩阵是一个m*n的矩阵,m为不同位置的个数,n为主题关键词个数;矩阵中每一个分量tfij表示第i个位置上第j个关键词的词频,词频的计算方法为nij表示第i个位置上第j个关键词出现的次数,∑knik表示第i个位置上所有关键词出现的总数;
步骤5.3、计算网页主题特征向量:
第一个矩阵是一个1*m的位置权值矩阵,代表着不同位置的重要程度,pi表示第i个位置的权值;第二个矩阵是一个m*n的位置-关键词词频矩阵,代表不同位置不同关键词出现频率;
步骤5.4、用余弦相似度计算主题特征向量和网页主题特征向量的相似度:
其中,wi表示第i个关键词的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811442700.0/1.html,转载请声明来源钻瓜专利网。