[发明专利]网页分类方法、装置及计算机可读存储介质在审

申请号：	201810694720.0	申请日：	2018-06-29
公开（公告）号：	CN109062972A	公开（公告）日：	2018-12-21
发明（设计）人：	吴壮伟	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	待分类网页核心关键词网页分类网页链接网页源码种子网页词集合可用指向计算机可读存储介质文本筛选存储介质分类结果噪音过滤自动分类词向量停用词分词集合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种网页分类方法、装置及存储介质，该方法从种子网页中获取网页链接，从该网页链接所指向的待分类网页中获取网页源码后，对所述网页源码进行噪音过滤，获取每个待分类网页的筛选文本，对该筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合。之后，该方法从所述可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合，计算每个待分类网页的核心关键词词向量的平均值，并将该平均值输入训练得到的网页分类模型，得到每个待分类网页的分类结果。利用本发明，可以对种子网页的网页链接所指向的待分类网页实现自动分类。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种网页分类方法、装置及计算机可读存储介质。

背景技术

随着互联网技术和Web技术的高速发展，互联网上网页的数量在不断增加，数据资源在不断丰富，为各种数据密集型的应用提供了潜在的数据来源。然而，过大的信息量给人们处理数据信息带来了很多困难，传统的靠人工的信息处理方式显然已经无法满足大量数据处理的要求。在这一背景下，如何自动获取海量网页的有效文本内容，并对海量网页进行自动分类，是组织和管理网络资源的关键。

发明内容

鉴于以上原因，本发明提供一种网页分类方法、装置及计算机可读存储介质，其主要目的在于结合爬虫技术和神经网络模型，对网页进行自动分类。

为实现上述目的，本发明提供一种网页分类方法，该方法包括：

获取步骤：从种子网页中获取网页链接，从所述网页链接指向的待分类网页中获取网页源码；

预处理步骤：对所述网页源码进行噪音过滤，获取每个待分类网页的筛选文本，对该筛选文本进行分词和去停用词处理，得到每个待分类网页的可用词集合；

提取步骤：从所述可用词集合中提取核心关键词，得到每个待分类网页的核心关键词集合；

计算步骤：计算每个待分类网页的核心关键词词向量的平均值，将该平均值输入预先训练得到的网页分类模型，得到每个待分类网页的分类结果；及

循环步骤：将获得分类结果的待分类网页作为新的种子网页，返回获取步骤。

优选地，所述网页分类模型的训练步骤包括：

为预先选取的预设数量的种子网页标注网页类型；

对所述种子网页的网页源码进行预处理，得到每个种子网页的可用词集合；

从所述可用词集合中提取核心关键词，得到每个种子网页的核心关键词集合；