[发明专利]数据处理方法及装置在审
申请号: | 201510822233.4 | 申请日: | 2015-11-24 |
公开(公告)号: | CN106776636A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘嘉;钦滨杰 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及信息技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着信息技术的不断发展,各种各样的网页已成为大量信息的载体,有效地提取并利用网页信息已成为一个巨大的挑战。目前,主要通过网络爬虫提取或者爬取网页数据。其中,所述网络爬虫又称为网页蜘蛛,是一种按照一定规则,自动爬取网页数据的程序或者脚本。此外,将爬取的大量网页数据进行分类已成为了热点问题。网页数据的分类对后续数据的分析和处理有着重要的意义。然而,目前通过网络爬虫只能爬取网页数据,无法对网页数据进行分类。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
依据本发明的一个方面,本发明提出了一种数据处理方法,包括:
获得爬取数据的信源栏目;
确定所述信源栏目对应路径的路径标签;
对所述路径划分为层级结构;
根据所述层级结构,将所述路径标签与所述爬取数据进行关联。
依据本发明的另一个方面,本发明提出了一种数据处理装置,包括:
获取单元,用于获得爬取数据的信源栏目;
确定单元,用于确定所述信源栏目对应路径的路径标签;
划分单元,用于对所述路径划分为层级结构;
关联单元,用于根据所述层级结构,将所述路径标签与所述爬取数据进行关联。
借由上述技术方案,本发明提供的一种数据处理方法及装置。首先获 得爬取数据的信源栏目;确定所述信源栏目对应路径的路径标签;对所述路径划分为层级结构;根据所述层级结构,将所述路径标签与所述爬取数据进行关联。与目前过网络爬虫只能爬取网页数据相比,本发明实施例通过将爬取数据的所述信源栏目对应路径的路径标签与所述爬取数据进行关联,能够实现网页数据的分类。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理方法的流程图;
图2示出了本发明实施例提供的另一种数据处理方法的流程图;
图3示出了本发明实施例提供的一种数据处理装置的结构示意图;
图4示出了本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据处理方法,如图1所示,该方法包括:
101、获得爬取数据的信源栏目。
其中,一个网页中通常会显示多个栏目的数据内容,爬取数据的信源栏目为爬取数据的来源栏目,如新浪首页通常会显示新闻栏目的数据、军事栏目的数据、财经栏目的数据,此时,爬取数据的信源栏目可以为新浪-新闻栏目、新浪-军事栏目、新浪-财经栏目等。
102、确定信源栏目对应路径的路径标签。
其中,所述信源栏目对应路径可以为爬虫服务器在爬取网页数据时,记录的路径标签。
例如,网页数据A为新浪首页上的数据,网页数据A的信源栏目为军事栏目,爬虫服务器在爬取网页数据时,会记录网页数据A的信源栏目对应路径为“http://www.sina.com.cn/”-
“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”,以及路径对应的路径标签“新浪首页”和“新浪-军事栏目”。
103、对信源栏目对应路径划分为层级结构。
例如,若网页数据A的信源栏目对应的路径为:
“http://www.sina.com.cn/”-
“http://finance.sina.com.cn/review/mspl/20151118/082623792665.shtml”,则将网页数据A的信源栏目对应的路径划分为:
“http://www.sina.com.cn/”和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510822233.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:知识库数据的更新方法及装置
- 下一篇:电子书分享方法及装置