[发明专利]一种数据过滤方法及装置在审
申请号: | 201811313297.1 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109657134A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 罗玄;黄君实;陈强 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;陈智勇 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待检测数据 敏感关键词 文字标题 关键词库 数据过滤 网络点击 预设 过滤 过滤效率 快速过滤 垃圾数据 网络环境 潜在的 | ||
本发明提供了一种数据过滤方法及装置,所述方法包括:获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;获取所述待检测数据的网络点击量;基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。基于本发明提供的方案不仅可以快速过滤掉暴力、低俗等垃圾数据,还可以及时判断出潜在的隐藏较深需要过滤的数据,在提升过滤效率的同时改善网络环境。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据过滤方法及装置。
背景技术
随着网络技术的不断发展,越来越多的人通过网络发布、传递并获取各种信息数据。但是,由于网络的覆盖面很广,网络上传播的数据种类以及数据形式也很多,如文字、图像、声音、视频等等。在网络上流传的数据中,除了各种新闻数据、娱乐数据、百科数据等,低俗、暴力等其他不良数据的存量也较高,因此,对于这些数据的打压及过滤极为重要。
发明内容
本发明提供了一种数据过滤方法及装置以克服上述问题或者至少部分地解决上述问题。
根据本发明的一个方面,提供了一种数据过滤方法,包括:
获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词;
若所述文字标题信息包括所述预设关键词库中的敏感关键词,则获取所述敏感关键词的数量;
获取所述待检测数据的网络点击量;
基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据。
可选地,所述基于所述待检测数据的网络点击量以及文字标题信息中包括的敏感关键词的数量过滤所述待检测数据,包括:
若所述待检测数据的网络点击量超过第一预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第一预设数值,则过滤所述待检测数据;和/或
若所述待检测数据的网络点击量低于第二预设点击量,且所述文字标题信息中包括的敏感关键词的数量超过第二预设数值,则过滤所述待检测数据。
可选地,所述获取待检测数据的文字标题信息,判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:
获取预设数据库中各数据的网络点击量,并基于所述网络点击量进行排序,根据网络点击量在预设范围内的数据生成热门数据库;
选取所述热门数据库中的任一数据作为待检测数据,获取所述待检测数据的文字标题信息;
判断所述文字标题信息是否包括预设关键词库中的敏感关键词。
可选地,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词之前,还包括:
获取经过人工审核的敏感关键词和/或已过滤数据的文章标题信息提取的敏感关键词;
基于所述敏感关键词构建预设关键词库。
可选地,所述判断所述文字标题信息是否包括预设关键词库中的敏感关键词,包括:
对所述文字标题信息进行分词,获取所述文字标题信息包括的至少一个词语;
将所述词语与所述预设关键词库中的敏感关键词进行匹配;
若所述词语与所述预设关键词库中的敏感关键词匹配成功,则判断所述文字标题信息包括预设关键词库中的敏感关键词;
若所述词语与所述预设关键词库中的敏感关键词匹配不成功,则判断所述文字标题信息没有包括预设关键词库中的敏感关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811313297.1/2.html,转载请声明来源钻瓜专利网。