[发明专利]网络监控方法和设备有效
申请号: | 201710743043.2 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107679075B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 李智博;李宝环;董旭 | 申请(专利权)人: | 北京德塔精要信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/289;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李官 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 监控 方法 设备 | ||
1.网络监控方法,其特征在于,包括:
获得预设语料中具有正向标记和负向标记的句子/短语;其中若句子/短语具有负向标记,表示该句子/短语包含负向敏感信息,若句子/短语具有正向标记,则该句子/短语不包含负向敏感信息;
对预设语料进行分词处理,获得分词,根据预设语料计算分词向量;
根据组成句子/短语的分词所对应的分词向量,计算具有正向标记和负向标记的句子/短语的句子向量;
根据中具有正向标记和负向标记的句子/短语,以及句子/短语对应的句子向量训练分类器;
按预设规则从用户上网数据中提取出的句子、短语和/或词,根据提取出的句子、短语和/或词所对应的向量,构建待检测的向量;
使用所述分类器对待检测的向量进行分类;
若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同,则判断用户上网数据中包含敏感信息;
其中,所述用户上网数据包括用户请求的Url;
所述按预设规则从用户上网数据中提取出的句子、短语和/或词,包括:从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词;
待检测的向量等于用户上网数据中提取出的句子、短语和/或词所对应的向量的平均值;
其中提取出的句子所对应的向量等于构成句子的分词的向量的平均值;
提取出的短语所对应的向量等于构成短语的分词的向量的平均值。
2.根据权利要求1的方法,其特征在于,所述根据组成句子/短语的分词所对应的分词向量,计算具有正向标记和负向标记的句子/短语的句子向量,包括:
计算组成句子/短语的分词对应的分词向量的平均值,将所述平均值作为句子向量。
3.根据权利要求1所述的方法,其特征在于,所述分类器是基于随机森林算法构建的。
4.根据权利要求1所述的方法,其特征在于,所述预设语料包括维基百科、新闻信息。
5.根据权利要求1所述的方法,其特征在于,所述用户上网数据包括以下一种或多种:
请求Url、请求方式、用户代理信息、上一级Url、响应数据;向目的IP提交的数据。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京德塔精要信息技术有限公司,未经北京德塔精要信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710743043.2/1.html,转载请声明来源钻瓜专利网。