[发明专利]面向加密流量的视频资源与视频播放页面的域名关联方法在审
| 申请号: | 202210727746.7 | 申请日: | 2022-06-22 |
| 公开(公告)号: | CN115209183A | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 张中一;何正杰;李钊;尹姜谊;刘珍妮;马小青;杜梅婕 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/262;H04N21/266;H04N21/858 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 加密 流量 视频 资源 播放 页面 域名 关联 方法 | ||
本发明公开一种面向加密流量的视频资源与视频播放页面的域名关联方法,属于网络安全领域,基于流量数据利用序列挖掘算法挖掘不同资源间的关联关系,将视频资源与视频播放页面的域名进行关联,通过防范视频播放页面的方式遏制有害视频的传播。本方法主要适用于部署在网关系统中,有助于发现盗版视频的源头,防范有害视频的传播。
技术领域
本发明提出了一种面向加密流量数据将视频资源与视频播放域名进行关联的方法,属于网络安全领域。
背景技术
随着互联网的普及和视频行业的蓬勃发展,网络视频用户越来越多,视频流量的比重逐年上升。在万物皆媒、人机互生的趋势下,直播、短视频行业有了爆发性增长,人们对于视频的及时性和延迟的减少有了更高的要求。网络视频行业规模的飞速增长促进了视频黑灰产的发展,有害视频的快速涌现,扰乱网络空间秩序,潜在地威胁着人们的身心健康和财产安全。然而,CDN等云技术的发展使用户有了更好的播放体验,也给防范有害视频的传播提出了新的挑战,之前通过防范视频资源本身的方式逐渐失效。
目前,将不同互联网资源(网页、视频、图片、JS等)进行关联的方法主要有两类,分别是基于内容的关联方法和基于流量字段的关联方法。基于内容的方法从内容本身语义的角度进行关联,能较为全面地刻画资源内在的语义和结构信息,但是这类方法需要主动地对资源所在的网站访问,提取数据的方式较为复杂。基于流量字段的方法利用HTTP的字段数据对网站进行追踪和资源关联,关联性强,实时高效,然而,由于加密技术的流行,流量加密后无法通过HTTP字段进行关联,因此这类方法在目前的互联网环境中适用性较低。
发明内容
为了解决流量加密后无法通过HTTP字段进行关联的问题,本方法基于流量数据利用序列挖掘算法挖掘不同资源间的关联关系,将视频资源与视频播放页面的域名进行关联,通过防范视频播放页面的方式遏制有害视频的传播。本方法主要适用于部署在网关系统中,有助于发现盗版视频的源头,防范有害视频的传播。
为实现上述目的,本发明采用以下技术方案:
一种面向加密流量的视频资源与视频播放页面的域名关联方法,包括以下步骤:
1)根据视频资源流量日志构造历史上下文序列;
2)利用PrefixPair算法进行挖掘,找出视频资源真实播放页面概率最高的频繁序列l,步骤包括:从历史上下文序列数据中找出所有长度为1且符合预设的序列挖掘最小支持度的前缀,构建频繁1项序列;再为每一个频繁1项序列投影其对应的序列数据,计算投影序列中各长度为1的子序列的支持度,如果子序列的支持度和其对应的1项前缀的支持度不相同,则将满足支持度的单项与其在投影序列中的前缀进行合并,得到频繁2项序列及其支持度;将频繁2项序列按照其支持度进行倒序排序,从频繁2项序列首部的频繁1项序列中找出视频资源真实播放页面概率最高的频繁序列l;
3)在PrefixPair算法的基础上加入迭代和递归来构建Multi-PrefixPair算法,利用Multi-PrefixPair算法进行以下处理:将长度为1的频繁序列l作为候选播放页面进一步迭代挖掘,通过前缀投影的方式找到其对应的支持度仅小于前缀且序列长度最长的频繁序列L;将频繁序列L与原始的历史上下文序列进行匹配,对未匹配上的原始的历史上下文序列再次采用PrefixPair算法进行挖掘,如此反复,直到原始的历史上下文序列不符合挖掘条件为止;
4)从频繁伴随序列中得到视频资源对应的候选播放页面集合,从序列挖掘返回结果中通过统计排序的方式构建视频资源播放页面候选集,将视频资源域名与播放页面域名进行关联。
进一步地,步骤1)中针对每一条视频资源流量日志,在仅包含视频资源流量的视频日志数据库中查询其历史出现信息,判断出现次数是否满足序列挖掘的最少次数要求;若满足,则对过去出现的每一条视频资源流量日志查询包含所有流量数据的历史流量日志数据库,根据设置的窗口大小构建历史上下文序列,并保留序列的先后顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210727746.7/2.html,转载请声明来源钻瓜专利网。





