[发明专利]一种垂直网络蜘蛛在审
申请号: | 201210495397.7 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103841173A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 郑世超;苏晓华 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种垂直网络蜘蛛。垂直网络蜘蛛是与通用搜索引擎的网络蜘蛛相对的一个概念。与通用搜索引擎不同的是,垂直搜索引擎服务于特定人群,其关注的只是某一专业领域的信息,因此垂直网络蜘蛛在搜索过程中没有必要对整个Web进行遍历,只需选择与本领域相关的页面进行访问。垂直网络蜘蛛与通用网络蜘蛛相比,在网页采集技术上有很大的不同,其算法和工作流程更为复杂。垂直网络蜘蛛在搜索Web时,需要根据一定的网页分析算法对网页的主题相关性进行判断,对发现的URL进行主题预测和识别,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 | ||
搜索关键词: | 一种 垂直 网络 蜘蛛 | ||
【主权项】:
1.一种垂直网络蜘蛛,其特征在于:包括以下步骤:A、主题目标描述A1、指定初始种子URL根据领域的目标网页特征,预先给定初始种子URL,即网络蜘蛛爬行的起始页面;A2、建立主题特征关键词首先通过网页集合自动提取特征关键词,然后再通过人工筛选和调整;主题特征确立后,垂直蜘蛛在不断深入抓取网页的同时还可以动态的学习扩充关键词集合;B、网页搜索:B1、搜索策略采用最佳优先Best-First搜索策略;动态的构建一个待爬行的URL队列,然后按照某种评价策略对队列中的URL进行排序,每次从中挑选出最好的URL优先爬行;B2、URL评价策略采用基于网页内容的评价方法;使用主题判别方法计算该网页的主题相关度,主题相关度值低于某一阈值的网页被丢弃;C、主题相关度判定采取基于网页内容和结构的向量空间模型算法;其具体流程为以下几个方面;C1、预处理在网络蜘蛛采集之前,先将描述主题的种子集页面进行关键词的提取和加权,从而得到该主题的特征向量及向量的权重;C2、正文处理对蜘蛛采集的页面正文进行分词,去掉停用词,保留关键词,然后根据公式TFi=a·TFM+b·TFT+c·TFK+d·TFD+e·TFA,按照关键词在文章中出现的不同位置计算加权频率;C3、关键词扩充根据设定主题中的特征向量对得到的页面关键词进行调整和扩充;C4、计算页面与主题的相似度根据下式计算页面与主题的相似度;Sim ( D ) = cos θ = Σ i = 1 n D i × T i ( Σ i = 1 n D i 2 ) × ( Σ i = 1 n T i 2 ) ]]> C5、判断页面与主题是否相关根据相似度值的大小和预先设定的阈值d进行比较,如果相似度值大于等于d,则表示页面与主题相关,下载该页面保留到本地;否则判为不相关,丢弃该页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210495397.7/,转载请声明来源钻瓜专利网。
- 上一篇:抗炎的取代的环丁烯二酮化合物的胆碱盐
- 下一篇:一种商品候选集推荐方法