[发明专利]一种基于第三方服务的盗版视频网站检测方法及系统有效
申请号: | 202110360151.8 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113163234B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 尹姜谊;张世俊;李钊;杨嵘;张成伟;张中一;何正杰;王晨旭 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04N21/24 | 分类号: | H04N21/24;H04L43/08;H04L61/4511;G06F16/958;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 第三 服务 盗版 视频 网站 检测 方法 系统 | ||
1.一种基于第三方服务的盗版视频网站检测方法,其步骤包括:
1)域名检测模块提取网站的域名及其第三方服务域名,然后基于提取的域名检测该网站为盗版的概率P1;其中,基于提取的域名检测网站为盗版的概率P1的方法为:11)提取网站的域名及其第三方服务域名;12)将网站域名及其第三方服务域名分别转换为字符级嵌入向量Cc、域名级嵌入向量Cd;13)将字符级嵌入向量Cc及域名级嵌入向量Cd分别输入CNN-BiLSTM模型进行学习,得到向量Lc、Ld;其中通过CNN学习获取每个字符之间的关系、使用BiLSTM学习获取域名之间的语义信息;14)对CNN-BiLSTM模型学习后所得的向量Lc、Ld进行拼接,得到向量L;15)利用注意力机制学习拼接后的向量L,并利用ReLu激活函数计算得到向量A;16)输出层利用Sigmoid激活函数计算向量A的类别概率,输出网站为盗版视频网站的概率P1;
2)元数据检测模块提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2;其中,所述统计信息包括第三方服务域名的数量、第三方服务去重后域名的数量、第三方服务域名平均长度、第三方服务请求URL的数量、第三方服务请求去重后URL的数量、第三方服务请求URL的平均长度、第三方服务请求为图片资源的数量、第三方服务请求为脚本资源的数量、第三方服务请求为媒体资源的数量、第三方服务请求为字体资源的数量、第三方服务请求为样式资源的数量、第三方服务请求为主框架资源的数量和第三方服务请求为子框架资源的数量;
3)融合检测模块基于概率P1、P2确定该网站是否为盗版视频网站。
2.如权利要求1所述的方法,其特征在于,根据该网站向第三方服务发送的网络请求获取所述第三方服务域名。
3.如权利要求1或2所述的方法,其特征在于,所述第三方服务域名包括顶级域名级、二级域名和三级域名。
4.如权利要求1所述的方法,其特征在于,得到所述字符级嵌入向量Cc的方法为:
211)将由字符串构成的域名分割成单个字符;
212)构造字符索引字典,为每个字符创建一个数字索引;
213)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
214)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
215)将网站域名及其第三方服务域名的嵌入向量进行拼接,得到M*N*K维的向量Cc;其中M为网站域名及其第三方服务域名的数量。
5.如权利要求1所述的方法,其特征在于,得到所述域名级嵌入向量Cd的方法为:
221)将由字符串构成的域名分割成单个字符;
222)构造字符索引字典,为每个字符创建一个数字索引;
223)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
224)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
225)将每个域名的N*K维嵌入向量压缩为1*K维嵌入向量;
226)将各域名压缩后的1*K维嵌入向量进行拼接,形成M*K维的域名级嵌入向量Cd,其中M为网站域名及其第三方服务域名的数量。
6.如权利要求1或2所述的方法,其特征在于,步骤2)中,基于元数据检测网站为盗版的概率P2的方法为:
21)提取网站及其第三方服务对应的元数据信息;
22)从元数据中提取网站及其第三方服务相关资源的统计信息,并基于所述统计信息形成特征向量W;
23)构建随机森林模型,对特征向量W进行检测,输出网站为盗版视频网站的概率P2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110360151.8/1.html,转载请声明来源钻瓜专利网。