[发明专利]一种面向多通道互联网新媒体数据的视图像内容布控方法在审
申请号: | 201711478891.1 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108304481A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 沈宜;贾宇;郭先会;张家亮;何海诣 | 申请(专利权)人: | 成都三零凯天通信实业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 薛波 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新媒体 图像内容 互联网 布控 多通道 下载 图像内容识别 网络信息内容 多通道数据 黑白名单库 安全领域 传播途径 快速采集 视频内容 数据传播 有效识别 重要问题 爬虫 有效地 算法 网站 微博 传播 架构 图像 监测 主流 图片 | ||
1.一种面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:所述方法包括如下步骤:
1)基于分布式爬虫架构的多通道数据的爬取和下载,主要包括:利用分布式爬虫技术从互联网新媒体爬取网络数据、下载视图像及存储视图像;
2)基于Hash值的视图像黑白名单库建立,主要包括:对所述存储的视图像通过提取Hash值的方式与不良及受控媒资对应Hash值进行匹配,如果匹配成功,则将所述存储的视图像提取的Hash值写入黑名单库;如果匹配失败,则将所述存储的视图像提取的Hash值写入白名单库;
3)基于SIFT特征算法的视图像内容识别,主要包括:利用SIFT特征算法提取不良及受控媒资的指纹信息,并建立不良及受控媒资指纹库作为布控媒资库,对步骤2)中写入白名单库中的Hash值对应的视图像通过SIFT特征算法提取指纹并与不良及受控媒资指纹库中的指纹信息进行匹配,分析所述匹配结果,完成布控。
2.根据权利要求1所述的面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:
所述的基于分布式爬虫架构的多通道数据的爬取和下载,包括如下步骤:
1)通过前端配置管理对分布式爬虫架构前端采集策略进行控制,分布式爬虫架构从互联网新媒体爬取网络数据,根据爬取到的种子地址类型、爬取执行规则、爬取层数、存储管理信息将爬取到的网络数据分类到相应的数据连接池;
2)根据分析所述数据连接池的数据,进行爬取任务的控制、调度及分配;
3)分布式爬虫架构对种子地址URL进行解析;
4)分布式爬虫架构根据配置的采集策略、分配的任务和解析的种子地址URL,实现详细视图像的下载及视图像的存储。
3.根据权利要2所述的面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:所述的分布式爬虫架构包括下载器、解析器和数据管理器,所述下载器和解析器之间依靠消息队列MQ进行通信。
4.根据权利要求1所述的面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:
所述的基于SIFT特征算法的视图像内容识别,包括如下步骤:
1)利用SIFT特征算法对不良及受控媒资进行关键帧抽取、图像尺度空间极值检测、关键点位置及尺度确定、关键点方向确定,生成不良及受控媒资的特征向量,所述特征向量作为不良及受控媒资的指纹信息写入布控媒资库;
2)利用SIFT特征算法对分布式爬虫下载的视图像内容进行特征向量的提取;
3)对所述分布式爬虫下载的视图像内容提取的特征向量与布控媒资库中的特征向量进行匹配;
4)分析匹配结果,如果匹配失败,则认为爬取下载的视图像中未含有不良及受控媒资中相关的内容,如果匹配成功,则认为爬取下载的视图像中含有不良及受控媒资中相关的内容。
5.根据权利要求1所述的面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:所述的不良及受控媒资主要包括暴恐、敏感事件、敏感建筑及政治有害的图片和视频内容。
6.根据权利要1-5所述的任一面向多通道互联网新媒体数据的视图像内容布控方法,其特征是:所述的视图像包括图片和视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都三零凯天通信实业有限公司,未经成都三零凯天通信实业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711478891.1/1.html,转载请声明来源钻瓜专利网。