[发明专利]一种网站列表路径生成方法及装置有效
申请号: | 201710587500.3 | 申请日: | 2017-07-18 |
公开(公告)号: | CN110020036B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 潘峰;孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 列表 路径 生成 方法 装置 | ||
本发明公开了一种网站列表路径生成方法及装置,涉及网络技术领域,为解决现有技术在网站栏目中没有相似的链接路径时,无法判断当前栏目是否为列表区域,进而无法生成对应的列表路径,导致网站列表路径生成的准确率较低而发明。本发明的方法包括:判断目标栏目中是否存在路径结构相似的第一链接路径;若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径;若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。本发明适合应用于生成网站列表区域的路径。
技术领域
本发明涉及网络技术领域,尤其涉及一种网站列表路径生成方法及装置。
背景技术
随着网络爬虫技术的广泛使用,网络爬虫的工作效率也越来越受人们重视。当网络爬虫在对网站内容进行爬取时,爬取到的很多内容实际价值并不高,例如,广告或图片等区域的内容。而对于网络爬虫而言,网站的列表区域实际上是价值较高的部分。其中,与网站的其他栏目部分相比,网站列表区域之所以说价值较高,是因为网站的列表区域并不是严格意义上的列表,其内部包含带有不同标题名称及其内容的链接,这些链接在列表区域内呈“表”状逐条排列,故而列表区域内含有大量的信息和数据。因此,提高网络爬虫工作效率的突破口也在于如何能够确定网站列表区域的路径而不是网站的其他栏目,进而使网络爬虫在爬取网站内容时只爬取网站列表区域的内容,从而避免爬取其他价值较低栏目中的内容,如广告栏目的内容等。
目前,在现有技术对网站列表路径生成过程中,通常使用两种方式来进行,其中,第一种是在需要进行网站列表路径生成的网站中,通过人工的方式对列表区域添加额外的列表路径信息;另一种方式是通过对网站中全部栏目的路径根据相似度进行分类,生成路径组,并根据路径组确定对应的列表路径。然而,第一种生成方式在面对网站数量较大时,需要花费较多的人力;而第二种生成方式在当网站栏目中没有符合相似度的相似路径时,无法形成栏目路径组,进而由于无法根据路径组来识别该栏目是否为列表区域,从而无法生成对应该栏目的栏目列表路径,导致网站列表路径生成过程中出现准确率较低的问题。
发明内容
鉴于上述问题,本发明提供一种网站列表路径生成方法及装置,主要目的在于当网站栏目中的链接没有相似路径时,能够实现判断目标栏目是否为列表区域,并在确定目标栏目为列表区域后生成网站列表路径的功能,进而提高网站列表路径的生成的准确率。
为解决上述技术问题,第一方面,本发明提供了一种网站列表路径生成方法,该方法包括:
判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;
若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径;
若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
可选的,所述判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径包括:
确定所述目标栏目中的链接路径数量;
若所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
若所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
可选的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710587500.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据识别方法和装置、存储介质及电子装置
- 下一篇:应用特征库生成方法和装置