[发明专利]一种数据采集方法及装置在审
申请号: | 201711375381.1 | 申请日: | 2017-12-19 |
公开(公告)号: | CN108170744A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 邢荣 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种数据采集方法及装置,该方法包括:设置至少一个维度以及每一个所述维度对应的至少一个描述词;在所述至少一个维度中确定待采集数据对应的至少一个目标维度;根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。因此,本发明提供的方案可以提高数据采集准确率。 1 | ||
搜索关键词: | 数据采集 检索结果 维度 采集数据 目标维度 描述词 准确率 检索 | ||
设置至少一个维度以及每一个所述维度对应的至少一个描述词;
还包括:
在所述至少一个维度中确定待采集数据对应的至少一个目标维度;
根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
在判断出所述至少一个关键字不合理时,执行:
A1:重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
A2:利用所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
A3:根据所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,执行步骤A1。
3.根据权利要求1所述的方法,其特征在于,所述根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字,包括:
汇总每一个所述目标维度对应的至少一个描述词;
利用所汇总的描述词,形成至少一个待确定关键字;
针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字;
和/或,
所述利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果,包括:
形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;
针对每一个所述关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
确定所述检索结果中包括的至少一个字符串;
统计每一个所述字符串的出现次数;
针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
5.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
统计所述检索结果的数据量;
判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
6.一种数据采集装置,其特征在于,设置模块,用于设置至少一个维度以及每一个所述维度对应的至少一个描述词;
维度确定模块,用于在所述设置模块设置的所述至少一个维度中确定待采集数据对应的至少一个目标维度;
关键字确定模块,用于根据所述维度确定模块确定的每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
检索模块,用于利用所述关键字确定模块确定的所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
采集模块,用于根据所述检索模块得到的所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
7.根据权利要求6所述的装置,其特征在于,所述关键字确定模块,进一步用于在接收到所述采集模块的触发时,重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
所述检索模块,进一步用于利用所述关键字确定模块确定的所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
所述采集模块,进一步用于根据所述检索模块得到所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,触发所述关键字确定模块。
8.根据权利要求6所述的装置,其特征在于,所述关键字确定模块,包括:形成子模块以及确定子模块;
所述形成子模块,用于汇总每一个所述目标维度对应的至少一个描述词;利用所汇总的描述词,形成至少一个待确定关键字;
所述确定子模块,用于针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字;
和/或,
所述检索模块,用于形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;针对每一个关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
9.根据权利要求6至8任一所述的装置,其特征在于,所述采集模块,包括:第一统计子模块以及第一判断子模块;
所述第一统计子模块,用于确定所述检索结果中包括的至少一个字符串;统计每一个所述字符串的出现次数;
所述第一判断子模块,用于针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
10.根据权利要求6至8任一所述的装置,其特征在于,所述采集模块,包括:第二统计子模块以及第二判断子模块;
所述第二统计子模块,用于统计所述检索结果的数据量;
所述第二判断子模块,用于判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711375381.1/,转载请声明来源钻瓜专利网。