[发明专利]通过IP巡检网站、并判断网站类别的方法、系统、设备及介质在审

申请号：	202110222311.2	申请日：	2021-02-28
公开（公告）号：	CN113157998A	公开（公告）日：	2021-07-23
发明（设计）人：	张乐平;顾明娟;吴一超;卞豪	申请（专利权）人：	江苏匠算天诚信息科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/958;G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	213000 江苏省常***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过 ip 巡检网站判断类别方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种通过IP巡检网站、并判断网站类别的方法、系统、设备及介质，方法包括：抓取目标网站的网页内容；提取网页中的有效文字和图片；对提取的有效文字和图片进行分类标注；针对文字和图片数据构建并训练网络模型；将网站中的网页爬出来的图片、文字分别作为各自对应模型的输入，得到网页中图片、文字的分类预测结果，设定图像分类结果和文字分类结果的权重；统计网站下所有图片和文字的预测结果,产生图片分类的分布、文字分类的分布；通过计算得分获得最终的分类结果。本发明模拟现实中的网页浏览人员，采用人工智能技术，直接分析网站中的具体内容，覆盖视频、图片、文字等网站信息，综合形成网站内容判别结果。

技术领域

本发明涉及计算机图像处理领域，具体涉及一种通过IP巡检网站、并判断网站类别的方法、系统、设备及介质。

背景技术

目前市面上解决网站分类的办法主要有以下几种：

1)基于网页文本；

A.通过建立网站分类字典，分析待判定的网页的有效词语在往来判定网站的类型；

B.单纯针对通过深度学习CNN等算法来解释文字之间的相似度；

C.通过逻辑回归、贝叶斯等机器学习的方法来对文本分类。

2)基于网站结构特征来做分类。

3)基于网站日志数据来做分类。

但这些方法只提取了网站的部分特征，比如网站的文字信息特征、html结构特征等，且无法全面的从数学上表征网页的内容，从而导致分类准确性低。导致机器分类后仍然需要很多手工纠正操作。

发明内容