[发明专利]搜索未知信息网络时的路径规划方法及网络盗版发现系统有效
| 申请号: | 201811285660.3 | 申请日: | 2018-10-31 |
| 公开(公告)号: | CN109284436B | 公开(公告)日: | 2020-06-23 |
| 发明(设计)人: | 金哲凡 | 申请(专利权)人: | 浙江传媒学院 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F21/10 |
| 代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 王健 |
| 地址: | 310018 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 未知 信息网络 路径 规划 方法 网络 盗版 发现 系统 | ||
1.一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,其特征在于,包括如下步骤:
S1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减,具体包括:
S11、对所述信息网络中的每个节点关联一个P值,P为正值且初始为0,P(V)表示结点V的P值;
S12、设定常数M和L,其中M为大于零的正数,表示结点上发现所述特定属性时P的增量,L为影响能力系数,0<L<M,当P(V)L时,不再向其周围节点的关联值赋值;
S13、当确定某结点V具有所述特定属性时,增加其P值:P(V)’=P(V)+M,并相应增加其周围结点的P值,且周围节点的P值增加随离结点V的距离而递减,具体包括:以节点V为根,以宽度优先方式遍历V周围的n层结点,增加每个访问到的结点的P值;
具体的,令Vij是第i层第j个结点,ΔPij是P(Vij)的增量,每一层的ΔPij值从前一层按系数α衰减,则ΔP1j=αM,ΔP2j=α2M,ΔP3j=α3M,…;P(Vij)’=P(Vij)+Δpij,其中0<α<1;
S2、对每个节点的P值进行累加,以P值从高到低排列决定结点的访问次序,优先访问正值大的节点,若被访问节点具有所述特定属性,则重复步骤S1;
其中,所述特定属性包括节点涉及盗版内容或非法内容或发散的舆论热点。
2.如权利要求1所述的搜索未知信息网络时的路径规划方法,其特征在于,M的取值范围为50~500,L的取值范围为0~0.1M。
3.一种网络盗版发现系统,其特征在于,包括相互连接的数据库服务器、业务服务器和取证服务器,所述数据库服务器用于记录原著作品相关信息、网络爬虫工作信息和系统运行信息,所述业务服务器用于通过网络爬虫进行数据爬取、执行搜索策略以及检测是否侵权,所述取证服务器用于执行取证动作;
其中,所述网络爬虫包括基础爬虫单元、特征管理单元和策略执行单元,所述基础爬虫单元用于进行数据爬取;所述特征管理单元用于将基础爬虫单元爬取的内容与所述原著作品进行特征匹配,判断节点是否存在盗版内容;所述策略执行单元用于基于所述特征匹配及判断结果,使用如权利要求1或2所述的路径规划方法执行搜索策略。
4.如权利要求3所述的网络盗版发现系统,其特征在于,所述基础爬虫进行数据爬取包括下载网页内容并过滤为文本,以及下载网页中的图像;所述特征管理单元进行特征匹配包括将过滤后的文本与文本原著作品做匹配或将下载的图像与图像原著作品做匹配。
5.如权利要求3所述的网络盗版发现系统,其特征在于,所述数据库服务器记录的网络爬虫工作信息和系统运行信息包括:URL、链接关系和侵权发现结果。
6.如权利要求4或5所述的网络盗版发现系统,其特征在于,系统包括由一台数据库服务器和若干台业务服务器形成的主从式计算机集群,所述取证服务器与业务服务器部署在同一台硬件上或分布式部署于因特网的不同位置,所述业务服务器和取证服务器通过局域网的出口连入因特网。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江传媒学院,未经浙江传媒学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811285660.3/1.html,转载请声明来源钻瓜专利网。





