[发明专利]基于教育网络信息主题采集方法在审
申请号: | 201811571567.9 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109670099A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 陈炽昌;杨帆 | 申请(专利权)人: | 全通教育集团(广东)股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 528403 广东省中山市东区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集 教育网络 信息主题 去重 页面 网络页面 网页保存 网页文本 页面信息 信息库 采集器 放入 去除 下载 网页 分析 教育 | ||
本发明公开了一种能够使采集到大量URL地址以及网页文本信息均与主题相关性较高,同时提高采集教育网络信息主题准确性的基于教育网络信息主题的采集方法。该基于教育网络信息主题的采集方法包括步骤采集网络页面,对页面进行分析下载,对页面信息进行提取,去除无关页面和无关URL,然后对页面和URL进行去重,将去重后网页保存到教育信息库,并且提取去重后的页面的URL,将该URL放入到采集到的URL序列中,然后供给个采集器,对网页进行重新采集。采用该基于教育网络信息主题的采集方法能够提高采集效率,提高教育网络信息主题采集有效性。
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于教育网络信息主题的采集方法。
背景技术
公知的:搜索引擎(Search Engine)的诞生,使得检索信息的能力获得了极大的提高。尽管搜索引擎得到了飞速的发展和广泛的应用,当前的搜索引擎仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率、时效性等方面都还存在不足,搜索引擎依然面临巨大的技术挑战。通用搜索引擎为用户提供不限定主题、内容广泛的信息搜索服务,为了保证检索内容的覆盖率,搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的时效性,需要尽可能减少索引库与数据源网站数据同步的延时。
近年来研究者不断提出新一代搜索引擎的发展方向,而主题搜索是其中尤为突出的一类。与普通搜索引擎比较,主题搜索引擎的检索范围相对较小,查准率和查全率易于保证。在搜索过程中无须对整个WEB进行遍历,只需选择与主题页面相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机。
现有技术中的面向主题的搜索引擎主要由网页采集、网页信息抽取、索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。面向主题的网页采集方法的
一般步骤分为:
1)设定采集种子网页,并提取该网页中出现的新链接,作为待采集的网页;
2)采集网页;
3)对采集到的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集的网页。并重复步骤2。
从降低网络带宽和磁盘存储需求的角度出发,一个优秀的面向主题的网络信息采集方法应该具有较高的采集有效性,即所采集页面中与主题相关的页面所占的比例要尽可能的高,这样可以极大的降低无关数据的采集量和存储量。
虽然,现有技术中如申请号为200810223523.7的中国专利申请公开了一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。上述方法极大的减小了对存储空间的需求;并且提高了面向主题信息采集的有效性。
但是,上述方法中容易遗漏掉部分网页更新后的页面采集,因此采集范围不够全面,不够精准。
同时,现有的主题网络爬虫存在如下问题:(1)在进行主题网页信息采集的时候很难判断准确目标网站内的网页是否为本主题的网页,所以采集的时候很容采集到大量的非本主题网页。(2)主题网络爬虫的优势就是无需对页面进行遍历,只需要选择与主题相关的页面进行访问,但是在选择的过程中,与主题相关的页面定义非常困难。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全通教育集团(广东)股份有限公司,未经全通教育集团(广东)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811571567.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于大数据技术的行业对标实现方法
- 下一篇:一种页面数据抓取方法及装置