[发明专利]一种面向网盘分享服务的盗版视频资源发现方法有效
申请号: | 201410100596.2 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103942254B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 刘梦娟;李杨曦;秦志光;罗绪成 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分享 服务 盗版 视频 资源 发现 方法 | ||
技术领域
本发明属于互联网文件分享应用领域,特别涉及一种面向网盘文件分享服务的盗版视频资源发现方法。
背景技术
随着Web2.0技术和云存储技术的发展,一种新的基于网盘的文件分享方式正逐渐成为互联网文件分享的主流。著名的网盘站点,例如国外的Megaupload、4shared,国内的华为网盘、百度云盘等都支持基于下载链接的文件分享服务。其基本原理如附图1所示:首先用户上传文件到网盘,如果用户选择分享该文件,则网盘会自动生成一个该文件的下载链接返回给上传用户,并在网盘系统中生成一个包含文件标题、类型、大小、上传时间、上传用户等信息的分享页面;上传用户可以通过博客、论坛、QQ等各种方式将该下载链接分享给其他互联网用户;其他用户通过点击该链接就可以方便地从网盘下载对应的分享文件。通常这些分享的下载链接信息也会被谷歌、百度等通用搜索引擎检索,因此普通互联网用户通过搜索引擎也能够获取分享文件的下载链接,从而有效扩大了文件的分享范围。
与传统的P2P文件分享相比,基于网盘的文件分享方式在保护用户隐私、内容多样性、下载速度等多个方面具有优势。特别是其对针对热门资源上传者的经济激励策略,吸引了大量用户在网盘上分享热门资源。然而,网盘分享存在与P2P分享方式同样的盗版问题,这些上传的热门资源中很大一部分是盗版的电影、电视剧等视频文件。有研究指出,由于能够为盗版视频发布者提供更为可观的经济利益,网盘分享正逐渐成为盗版视频资源扩散的主要途径。随着大量盗版视频文件及其种子文件被转移到网盘,作为视频资源的版权拥有者以及版权保护组织,如何在网盘海量的分享文件中快速准确地发现这些盗版视频分享资源,督促网盘管理者删除相关下载链接成为阻断盗版视频非法扩散的关键。
发明内容
本发明的目的是提供一种面向网盘分享服务的盗版视频资源发现方法,该方法能够从指定网盘的海量分享文件中快速准确地发现目标视频的多种类型的盗版分享文件,包括视频文件、种子文件和压缩文件。
为实现上述发明目的,本发明提供的盗版视频资源发现方法,其特征在于,包括以下步骤:
步骤1、对于指定网盘、指定目标视频,利用通用搜索引擎搜集该目标视频在指定网盘上的可能下载链接及分享文件信息,得到备选下载链接集合,具体执行如下:
1.1)、提取指定网盘分享文件对应的下载链接的特征字符串,即该网盘所有分享文件的下载链接共同包含的最长相同字符串;
1.2)、根据指定网盘、目标视频名称构建搜索关键词,利用通用搜索引擎搜集与搜索关键词最相关的页面信息,保存检索结果对应的URL列表;
所述关键词构建方法,包含且不局限于以下方式:“目标视频名称+指定网盘名称+下载”或者“目标视频名称指定网盘名称下载”;所述通用搜索引擎,包含且不限于:百度、谷歌;
1.3)、爬取检索结果对应的URL列表中每个URL对应的网页;
1.4)、判断检索结果对应的URL列表中每个URL是否包含指定网盘的特征字符串,如果包含,则将该URL作为目标视频可能的下载链接,将其加入备选下载链接集合中;如果不包含,则读取该URL对应的网页内容中包含的所有链接,判断每个链接是否包含指定网盘的特征字符串,如果包含,则将该链接作为目标视频可能的下载链接,将其加入备选下载链接集合中,否则终止分析该URL;
步骤2、利用本发明提供的三元属性规则树方法,判断备选下载链接集合中的每个链接是否为目标视频的下载链接,从而得到目标视频下载链接集合,具体执行如下:
2.1)、根据指定网盘分享页面的布局特征,提取出备选下载链接集合中每个下载连接对应的分享文件的三元组属性{标题,类型,大小};
2.2)、判断备选下载链接集合中每个下载链接对应的分享文件的标题是否与目标视频名称符合,如果符合,则将下载链接加入合题下载链接集合中,执行步骤2.3;否则判断该下载链接对应的分享文件不是目标视频的分享文件,舍弃对应的下载链接;
所述分享文件标题与目标视频名称是否符合的判断方法如下:
2.2.1)、制定分享文件标题和目标视频名称的统一转换规则:将分享文件标题和目标视频名称中含有的所有符号用空格替换,如果相邻中文字符间存在空格,则将空格去掉;将含有的所有中文繁体字符转化为简体字符;将含有的所有英文大写字符转化为英文小写字符;将含有的所有罗马数字和中文数字转化为阿拉伯数字;
2.2.2)、将备选下载链接集合中每个下载链接对应的分享文件的标题按照步骤2.2.1所述统一转换规则进行转换;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410100596.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的旋转式三通阀
- 下一篇:高温蒸汽专用球阀