[发明专利]一种基于知识图谱的爬取种子列表更新方法及装置有效
申请号: | 201710119956.7 | 申请日: | 2017-03-02 |
公开(公告)号: | CN106980651B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 刘钊岐;沈颂;林友勇;张芬 | 申请(专利权)人: | 中电海康集团有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310012 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种基于知识图谱的爬取种子列表更新方法及装置,该方法从初始的爬取种子列表中选取一个种子,爬取该种子的网页,从该种子的网页中提取出所有链接的URL作为新种子,爬取新种子的网页,并基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度,然后用新种子的相似度与设定的相似度阈值进行比对,如果新种子的相似度大于设定的相似度阈值,则将该新种子加入爬取种子列表中,否则直接丢弃该新种子。本发明的装置包括种子选取模块、新种子提取模块、相似度计算模块和相似度比对模块。本发明能有效过滤与搜索主题相似度不高的网页,逐步调整网页爬取的方向,提高了爬取网页的准确度以及爬取网页的效率。 | ||
搜索关键词: | 一种 基于 知识 图谱 种子 列表 更新 方法 装置 | ||
【主权项】:
一种基于知识图谱的爬取种子列表更新方法,用于爬虫系统在爬取网页的过程中获取爬取种子,其特征在于,所述基于知识图谱的爬取种子列表更新方法,包括:从初始的爬取种子列表中选取一个种子,所述初始的爬取种子列表中的种子对应的网页内容与搜索主题的相似度大于设定的相似度阈值;爬取该种子的网页,从该种子的网页中提取出所有链接的URL作为新种子;爬取新种子的网页,基于知识图谱计算出所述新种子对应的网页内容与搜索主题的相似度;用所述新种子的相似度与设定的相似度阈值进行比对,如果所述新种子的相似度大于设定的相似度阈值,则将该新种子加入爬取种子列表中,否则直接丢弃该新种子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710119956.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种面向Twitter观点分类的情感增强词嵌入学习方法
- 下一篇:多功能桌子