[发明专利]一种网页类型识别方法及装置有效

申请号：	201910486083.2	申请日：	2019-06-05
公开（公告）号：	CN110287409B	公开（公告）日：	2022-07-22
发明（设计）人：	孙尚勇	申请（专利权）人：	新华三信息安全技术有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/958;G06F40/289;G06K9/62
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	孟维娜;高莺然
地址：	230001 安徽省合肥市高新区***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页类型识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种网页类型识别方法及装置，包括：统计待识别网页中每一文本词语的TF‑IDF权重；统计待识别网页中每一HTML标签的出现次数占总出现次数的比重；根据每一文本词语的TF‑IDF权重和每一HTML标签的比重，构建待识别网页对应的第一预设数量维的特征向量；将待识别网页对应的特征向量输入预设向量分类模型，获得待识别网页的类型。应用本申请实施例提供的技术方案，能够减少网页类型识别耗费的人力，实现对未知类型的网页的识别，增加有效识别的网页类型数量。

技术领域

本申请涉及互联网技术领域，特别是涉及一种网页类型识别方法及装置。

背景技术

在网络安全监控中，常常需要分析确定用户访问了哪些网页，以及网页的类型。其中，网页的类型包括新闻、视频、论坛、金融等。从而基于网页的类型，分析用户的行为特征。

目前，网页类型的识别依赖于记录各种类型的网页的方式实现。具体的，管理人员将多种类型的网页记录在数据库中。电子设备获取到待识别网页后，在数据库中查找与待识别网页相同的网页，将查找到的网页的类型确定为待识别网页的类型。

采用上述方式识别网页类型，需要耗费大量的人力构建数据库，且只能识别已知类型的网页，有效识别的网页类型数量有限。

发明内容

本申请实施例的目的在于提供一种网页类型识别方法及装置，以减少网页类型识别耗费的人力，实现对未知类型的网页的识别，增加有效识别的网页类型数量。具体技术方案如下：

第一方面，本申请实施例提供了一种网页类型识别方法，所述方法包括：

对待识别网页上的文本内容进行分词处理，得到至少一个文本词语；

统计每一文本词语的TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率)权重；

统计所述待识别网页中每一HTML(Hyper Text Markup Language，超文本标记语言)标签的出现次数占总出现次数的比重，所述总出现次数为所述待识别网页中所有HTML标签的出现次数之和；