[发明专利]一种视频下载服务网站的识别、评估方法及系统无效
申请号: | 201010186795.1 | 申请日: | 2010-05-26 |
公开(公告)号: | CN101853300A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 刘锐;朱明;易荣峰 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;陈亮 |
地址: | 230026*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 下载 服务 网站 识别 评估 方法 系统 | ||
技术领域
本发明涉及网络通信领域,尤其涉及一种视频下载服务网站的识别、评估方法及系统。
背景技术
目前,随着多媒体技术的发展,越来越多的网站开始提供视频下载服务,由于多媒体具有携带海量信息、版权特征明显、健康度对社会影响广泛等特点,如何自动识别出网络中提供视频下载服务的网站、跟踪该网站更新的内容,并对相应网站的健康度进行评估,对于保护多媒体版权和构建健康网络等都有着重要意义。
在现有的网络信息处理领域中,已有较为成熟的信息抽取和内容主题识别技术,所述的信息抽取技术主要包括:自适应的网页元数据抽取方法,结合加权树匹配与抽取模式的聚合;模板生成网页的数据自动抽取方法,利用检测出的模板自动地从实例网页中抽取数据;以及基于样本的互联网结构化数据抽取方法,用于实现快速自动抽取互联网结构化数据。
所述的内容主题识别技术主要是基于统计的方法、基于知识的方法或结合两者混合的方法。具体来说,基于统计的方法主要是利用特征项的频率、位置特征的共现信息等,其中没有利用额外的知识库,例如机器可读词典等;基于知识的方法主要依赖于句法/语义分析器,采用的知识库包括脚步机器可读词典等,其中没有利用任何语料库统计技术;而两者结合的方法可以综合表现出两者的优势。
但在现有技术方案中,信息抽取技术和内容主题识别技术是相互独立工作的,现有技术中也缺乏一个有效专用的对视频下载服务网站进行识别和评估的方法。
发明内容
本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
本发明实施例提供了一种视频下载服务网站的识别、评估方法,所述方法包括:
获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;
通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库。
本发明还提供了一种视频下载服务网站的识别、评估系统,所述系统包括:
网页采集模块,用于获取需要处理的目标网站首页的统一资源定位符URL列表,并根据所获取的URL列表来采集所述目标网站的网页;
识别模块,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
评估模块,用于在所述识别模块识别该网站为视频下载服务网站且为初次访问,利用所述视频信息数据库中的视频信息对所述网站进行关键词匹配,完成对该网站的评估;
信息抽取模块,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。
由上述所提供的技术方案可以看出,首先获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块根据所获取的URL列表来采集所述目标网站的网页;通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。通过以上技术方案,就能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
附图说明
图1为本发明实施例所提供视频下载服务网站的识别、评估方法的流程示意图;
图2为本发明实施例所提供视频下载服务网站的识别、评估系统的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010186795.1/2.html,转载请声明来源钻瓜专利网。