[发明专利]网络监控方法和设备有效
申请号: | 201710743043.2 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107679075B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 李智博;李宝环;董旭 | 申请(专利权)人: | 北京德塔精要信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/289;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李官 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 监控 方法 设备 | ||
本发明提供网络监控方法和设备用于解决需要提供一种不持续依赖于专业人员收集敏感词的上网行为监控方法的问题。其中方法包括获得预设语料中具有正向标记和负向标记的句子/短语;其中若句子/短语具有负向标记,表示该句子/短语包含负向敏感信息,若句子/短语具有正向标记,则该句子/短语不包含负向敏感信息;对预设语料进行分词处理,获得分词,根据预设语料计算分词向量;根据组成句子/短语的分词所对应的分词向量,及其他步骤。相比于现有技术中的关键词过滤方法,本方法不依赖于敏感词的更新和筛选,从而随着时间的推进,若不更新关键词库,这关键词过滤方法的识别率会降低,而本方法的识别率会更高。
技术领域
本发明涉及通信技术/计算机技术,具体涉及网络监控方法和设备。
背景技术
现有技术中,采用关键词过滤对上网行为进行监控。关键字过滤,指网络应用中,对传输信息进行预先的程序过滤、嗅探指定的关键字词(例如网络),并进行智能识别,检查网络中是否有违反指定策略的行为。类似于IDS的过滤管理,这种过滤机制是主动的,通常对包含关键词的信息进行阻断连接、取消或延后显示、替换、人工干预等处理。
关键词过滤的主要布置在路由器、应用服务器、终端软件上,对应的应用场合主要有:网络访问、论坛、网志、即时通讯、电子邮件等。例如将敏感词作为关键词过滤上网行为。敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。
但是上述基于敏感词的关键词过滤依赖于与敏感词库,要想保持过滤的准确性,需要及时更新敏感词库,且敏感词库的覆盖范围取决于收集敏感词的专业人员,专业人员收集敏感信息的能力直接影响对敏感词匹配的质量。
因此需要提供一种不持续依赖于专业人员收集敏感词的上网行为监控方法。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的网络监控方法和设备。
为此目的,第一方面,本发明提出一种网络监控方法,包括:
获得预设语料中具有正向标记和负向标记的句子/短语;其中若句子/短语具有负向标记,表示该句子/短语包含负向敏感信息,若句子/短语具有正向标记,则该句子/短语不包含负向敏感信息;
对预设语料进行分词处理,获得分词,根据预设语料计算分词向量;
根据组成句子/短语的分词所对应的分词向量,计算具有正向标记和负向标记的句子/短语的句子向量;
根据中具有正向标记和负向标记的句子/短语,以及句子/短语对应的句子向量训练分类器;
按预设规则从用户上网数据中提取出的句子、短语和/或词,根据提取出的句子、短语和/或词所对应的向量,使用所述分类器对待检测的向量进行分类;
若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同,则判断用户上网数据中包含敏感信息。
可选的,所述根据组成句子的分词对应的分词向量,计算句子向量,包括:
计算组成句子的分词对应的分词向量的平均值,将所述平均值作为句子向量。
可选的,所述分类器是基于随机森林算法构建的。
可选的,所述用户上网数据包括用户请求的Url;
所述按预设规则从用户上网数据中提取出的句子、短语和/或词,包括:从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词;待检测的向量等于用户上网数据中提取出的句子、短语和/或词所对应的向量的平均值;
其中提取出的句子所对应的向量等于构成句子的分词的向量的平均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京德塔精要信息技术有限公司,未经北京德塔精要信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710743043.2/2.html,转载请声明来源钻瓜专利网。