[发明专利]一种数据采集方法及装置在审
申请号: | 201711375381.1 | 申请日: | 2017-12-19 |
公开(公告)号: | CN108170744A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 邢荣 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据采集 检索结果 维度 采集数据 目标维度 描述词 准确率 检索 | ||
本发明提供了一种数据采集方法及装置,该方法包括:设置至少一个维度以及每一个所述维度对应的至少一个描述词;在所述至少一个维度中确定待采集数据对应的至少一个目标维度;根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。因此,本发明提供的方案可以提高数据采集准确率。
技术领域
本发明涉及计算机技术领域,特别涉及一种数据采集方法及装置。
背景技术
随着大数据时代的到来,人们愈加认识到数据的重要性,因此通过对互联网数据的采集来获取到有价值的数据。
目前,数据采集的方法通常为:利用爬虫程序根据网站页面的数据分布去不断深入解析网站,遍历解析出来的链接或页面中的全部数据,以采集到所需数据。但是,由于目前各大网站的数据内容不断扩展,而且分类也在不断增多。因此在采用上述的方法从解析出来的连接或页面中采集所需数据时,由于采集范围过大,会导致采集到的数据存在数据冗余、数据漏采、采集结果分类不统一的问题。因此,现有的方式,数据采集的准确率较低。
发明内容
本发明实施例提供了一种数据采集方法及装置,可以提高数据采集准确率。
第一方面,本发明实施例提供了一种数据采集方法,该方法包括:
设置至少一个维度以及每一个所述维度对应的至少一个描述词;
在所述至少一个维度中确定待采集数据对应的至少一个目标维度;
根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
优选地,
进一步包括:
在判断出所述至少一个关键字不合理时,执行:
A1:重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
A2:利用所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
A3:根据所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,执行步骤A1。
优选地,
所述根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字,包括:
汇总每一个所述目标维度对应的至少一个描述词;
利用所汇总的描述词,形成至少一个待确定关键字;
针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字。
优选地,
所述利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果,包括:
形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;
针对每一个所述关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
优选地,
所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711375381.1/2.html,转载请声明来源钻瓜专利网。