[发明专利]通过IP巡检网站、并判断网站类别的方法、系统、设备及介质在审
申请号: | 202110222311.2 | 申请日: | 2021-02-28 |
公开(公告)号: | CN113157998A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 张乐平;顾明娟;吴一超;卞豪 | 申请(专利权)人: | 江苏匠算天诚信息科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 213000 江苏省常*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 ip 巡检 网站 判断 类别 方法 系统 设备 介质 | ||
本发明涉及一种通过IP巡检网站、并判断网站类别的方法、系统、设备及介质,方法包括:抓取目标网站的网页内容;提取网页中的有效文字和图片;对提取的有效文字和图片进行分类标注;针对文字和图片数据构建并训练网络模型;将网站中的网页爬出来的图片、文字分别作为各自对应模型的输入,得到网页中图片、文字的分类预测结果,设定图像分类结果和文字分类结果的权重;统计网站下所有图片和文字的预测结果,产生图片分类的分布、文字分类的分布;通过计算得分获得最终的分类结果。本发明模拟现实中的网页浏览人员,采用人工智能技术,直接分析网站中的具体内容,覆盖视频、图片、文字等网站信息,综合形成网站内容判别结果。
技术领域
本发明涉及计算机图像处理领域,具体涉及一种通过IP巡检网站、并判断网站类别的方法、系统、设备及介质。
背景技术
目前市面上解决网站分类的办法主要有以下几种:
1)基于网页文本;
A.通过建立网站分类字典,分析待判定的网页的有效词语在往来判定网站的类型;
B.单纯针对通过深度学习CNN等算法来解释文字之间的相似度;
C.通过逻辑回归、贝叶斯等机器学习的方法来对文本分类。
2)基于网站结构特征来做分类。
3)基于网站日志数据来做分类。
但这些方法只提取了网站的部分特征,比如网站的文字信息特征、html结构特征等,且无法全面的从数学上表征网页的内容,从而导致分类准确性低。导致机器分类后仍然需要很多手工纠正操作。
发明内容
为了解决以上几种分类方法分类准确性低的问题,考虑到图像和文字才是网站内容分类最直接的体现,本发明提出一种通过IP巡检网站、并判断网站类别的方法、系统、设备及介质,可以将分类的准确率提升到85%以上。
实现本发明目的的技术方案为:一种通过IP巡检网站、并判断网站类别的方法,包括:
输入IP列表,启动爬虫扫描,抓取目标网站的网页内容;
判断某个网站是否可访问,将结果记录到数据库;
判断网页内容里是否有备案号,并且备案号是否可查,将结果记录到数据库;
提取网页中的有效文字和图片;
对提取的有效文字和图片进行分类标注;
针对文字和图片数据构建并训练网络模型,训练结束后将模型参数写入模型库;
将网站中的网页爬出来的图片、文字分别作为各自对应模型的输入,得到网页中图片、文字的分类预测结果,设定图像分类结果和文字分类结果的权重;统计网站下所有图片和文字的预测结果,产生图片分类的分布、文字分类的分布;通过计算得分获得最终的分类结果。
进一步的,通过python爬虫框架scrapy结合javascript渲染服务splash抓取目标网站的网页内容。
进一步的,对提取的有效文字和图片进行分类标注,具体为:以网页为分组维度,图片和文字联合在一起标注,标注成预设的分类列表里的某个或某几个类别。
进一步的,针对图片数据,使用VGGNET模型;针对文字数据,使用textCNN模型,激活函数:ReLu,卷积核大小:14,15,16。
进一步的,图片预测在输入模型之前进行优化处理,将输入的图片调整大小、填充成n张图片组成一个批次,进行批量预测,然后取第二层的输出作为结果的判定,产生 n个形状为(C,J,K)的张量,取某分类值的pmap进行综合评分判定;
最终pmap激活图矩阵为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏匠算天诚信息科技有限公司,未经江苏匠算天诚信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110222311.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种燃气锅炉富氧燃烧供气方法及装置
- 下一篇:时钟频率异常偏差检测电路