[发明专利]一种网站类型的检测方法及装置在审
申请号: | 201610362232.0 | 申请日: | 2016-05-26 |
公开(公告)号: | CN107436890A | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 赵燕雷 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 陈莎莎,王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 类型 检测 方法 装置 | ||
技术领域
本申请涉及互联网技术领域,尤其是涉及一种网站类型的检测方法及装置。
背景技术
随着互联网技术的发展,在很多场景下都需要对网站类型进行检测。例如,通过检测网站类型判断网站的安全性;又例如,对于工信部备案的网站时,需要检测该网站的类型,确定该类型与备案时上报的类型是否一致。
目前在检测网站的类型时,通常由检测人员根据网站显示的内容,人工确定网站的类型。显然,这种方式造成了较大的工作量,导致检测效率较低。
因此,如何实现对网站类型的自动检测,是目前亟待解决的问题。
发明内容
本申请解决的技术问题在于提供一种网站类型的检测方法及装置,以实现能够自动检测网站类型,从而减少工作量并提高检测效率。
为此,本申请解决技术问题的技术方案是:
本申请提供了一种网站类型的检测方法,包括:
根据待检测网站的地址访问所述待检测网站的至少两级页面;
获取所述至少两级页面对应的网页代码;
从所述网页代码中提取特征信息,作为基本特征信息;
根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
可选的,所述检测方法还包括:
若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
可选的,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:
访问所述至少两级页面的下一级页面;
获取所述下一级页面对应的网页代码;
从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:
根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
可选的,所述检测方法还包括:
获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
根据所述反馈特征信息,调整所述预设模板。
可选的,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:
根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
根据所述二级页面的地址访问所述二级页面。
可选的,所述基本特征信息包括页面元素的标识和/或内容。
可选的,访问所述待检测网站的至少两级页面时,所述检测方法还包括:
模拟登录和/或模拟操作所述待检测网站。
可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
本申请还提供了一种网站类型的检测装置,包括:
访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;
第一获取单元,用于获取所述至少两级页面对应的网页代码;
提取单元,用于从所述网页代码中提取特征信息,作为基本特征信息;
第二获取单元,用于根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
第一确定单元,用于若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
可选的,还包括第二确定单元或者第三确定单元;
所述第二确定单元用于,若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型;所述第三确定单元用于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610362232.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用文字进行交流的人机对话平台
- 下一篇:皮肤拉提引导装置