[发明专利]自主发布信息的网络服务中检查信息内容的方法和装置无效

专利信息
申请号: 200810036423.3 申请日: 2008-04-22
公开(公告)号: CN101261630A 公开(公告)日: 2008-09-10
发明(设计)人: 郭诺 申请(专利权)人: 郭诺
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海专利商标事务所有限公司 代理人: 陈亮
地址: 200235上海市徐汇*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自主 发布 信息 网络服务 检查 信息内容 方法 装置
【说明书】:

技术领域

发明涉及一种在自主发布信息的网络服务中检查信息内容的方法和装置,尤其一种通过对网站进行全站自动爬行扫描以及进行可选择方式上报的在自主发布信息的网络服务中检查信息内容的方法和装置。

背景技术

当前有很多网络服务都涉及各种表现形式的由用户自我发起的网络信息的发布行为,我们称作“自主发布信息的网络服务”,具体是指可以由用户自己填写内容并发布可以被公众浏览到的网页的服务,如电子公告板(BBS)、博客(Blog)、评价及评述、留言板等等服务。这类网站服务的经营和管理者,为了回避用户可能发布有害或不恰当信息的行为,通常采取下述方法来控制和管理用户的信息发布行为:(1)关键字过滤方法;(2)通过人工检查确认再行发布的方法;(3)关键字发现与人工检查确认相结合的方法。

当使用关键字过滤方法时,设置关键字过多会对用户的发布行为和内容可读性、完整性造成影响,设置过少又达不到有效管理的目的,并且语言的多样性也会使这种方法限制了很多符合规定的内容的发布,造成不必要的过多限制进而影响了良好的用户体验。

而使用人工检查确认的方法又需要投入大量人力来完成管理以及服务的实时性受到影响。

使用关键字发现与人工检查确认相结合的方法通常仅限于服务商内部组织技术力量和人力来完成对后台信息数据的检索和管理。这对于没有足够人力管理的中小服务商或者作为网络服务的外部监管者,实现信息的24×7有效管理和关注较为困难。

发明内容

本发明的目的在于解决上述问题,提供了一种在自主发布信息的网络服务中检查信息内容的方法,完成了对具有大量实时更新内容的网站进行准实时的内容监管和情况获知的需求,解决了因人力不足造成的监管不利问题,或者因使用强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。

本发明的另一目的在于提供了一种在自主发布信息的网络服务中检查信息内容的装置,完成了对具有大量实时更新内容的网站进行准实时的内容监管和情况获知的需求,解决了因人力不足造成的监管不利问题,或者因使用强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。根据关注内容的侧重点不同,本发明也可用于对全站内容进行设定检索策略的自动扫描来检索和发现指定的关注内容,并上报关注人员。

本发明的技术方案为:本发明揭示了一种在自主发布信息的网络服务中检查信息内容的方法,包括:

(1)对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;

(2)根据设定的检索策略检查网页内容,获取符合该检索策略的设定要求的内容/页面地址;

(3)将符合该检索策略的设定要求的内容/页面地址以预先设定的可选择的方式上报。

上述的在自主发布信息的网络服务中检查信息内容的方法,其中,在步骤(2)中,该检索策略包括对基于文本网页进行关键字和表达式匹配的检查、对基于特定文件格式标志进行发现的匹配检查、对图像图片文件进行特定类型的图像识别的检查、对人类语言进行语意机器自动识别的匹配检查中的任意一种组合。

上述的在自主发布信息的网络服务中检查信息内容的方法,其中,步骤(3)中该预先设定的可选择的方式包括Email上报、电话上报、手机上报、即时通号码上报。

上述的在自主发布信息的网络服务中检查信息内容的方法,其中,步骤(1)和(2)进一步包括:

(a)根据限定的时间特性条件判断是否符合周期间隔或特定时间的控制条件,如果符合条件则进入步骤(b);

(b)动态装填准备接受扫描的页面URL队列;

(c)判断在该页面URL队列中是否还有可扫描的URL对象,如果有可扫描的URL对象则提取出其中一个URL对象,否则直接转入步骤(3);

(d)建立连接并通过头连接判断URL对象的页面文件可用性的基本信息,如果基本信息符合设定的可检测条件则继续下一步,否则将该URL对象标记为错误并记入错误队列;

(e)进行网页内容实体下载和初步状态性检查,如果检查结果符合则继续分析网页内容,否则将该URL对象标记为错误并记入错误队列;

(f)分析网页的内容实体,进行URL检查分析以及根据设定的检索策略的检查,其中URL检查分析过程包括将可用的URL装填入待分析的URL队列,不符检查条件的URL做抛弃标记并记入错误队列;

(g)在被检查的URL页面文件是不包含URL信息的二进制类型文件时仅执行检索策略的检查,包括对内容实体进行检索策略的匹配比对,当发现触发该检索策略的问题时将URL做标记并记入待报警的URL队列,同时将当前页面URL做水印标记、检查时间标记和状态标记。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭诺,未经郭诺许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810036423.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top