[发明专利]文本过滤方法、系统、设备和存储介质在审
申请号: | 201910431365.2 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110162616A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 胡陆杰 | 申请(专利权)人: | 广州虎牙信息科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511400 广东省广州市番禺区南村镇万博二*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 文本 关键词集合 存储介质 目标标识 文本过滤 方案解决 过滤处理 全局设置 网络平台 信息载体 减小 命中 承载 拦截 运营 配置 维护 | ||
本发明实施例公开了一种文本过滤方法、系统、设备和存储介质。该方法包括:获取待过滤文本以及承载所述待过滤文本的信息载体的目标标识;获取与所述目标标识对应的过滤关键词集合;如果所述待过滤文本命中所述过滤关键词集合中的任意一个过滤关键词,则对所述待过滤文本执行过滤处理,以实现对所述待过滤文本的拦截。上述技术方案解决了全局设置过滤关键词可能导致的对用户言论误过滤的问题,减小了运营人员在配置过滤关键词时的顾虑,更好地维护了网络平台的秩序。
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种文本过滤方法、系统、设备和存储介质。
背景技术
随着信息技术的不断发展,网络多媒体以其形式新颖、内容丰富受到人们的关注。但是,网络多媒体可能会掺杂着许多违规内容,例如是用户发布不当言论、敏感话题等,因此文本过滤是网络平台必不可少的功能。
目前,文本过滤业务大多以关键词过滤为主,只要用户发布的文本中包括关键词过滤集合中的任一关键词,则将该文本过滤掉,不显示给其他用户。研发人员在配置关键词时发现,一些词汇为中性词汇,包括这些词汇的文本可能不违规也可能违规,但是,只要将一个中性词或一个字配置成关键词,整个平台用户发布的包括这个词或这个字的文本都会被过滤掉,进而有可能会出现对用户言论误过滤的问题。
发明内容
本发明实施例提供一种文本过滤方法、系统、设备和存储介质,以维护网络平台的秩序,同时解决对用户言论误过滤的问题。
第一方面,本发明实施例提供了一种文本过滤方法,包括:
获取待过滤文本以及承载所述待过滤文本的信息载体的目标标识;
获取与所述目标标识对应的过滤关键词集合;
如果所述待过滤文本命中所述过滤关键词集合中的任意一个过滤关键词,则对所述待过滤文本执行过滤处理,以实现对所述待过滤文本的拦截。
第二方面,本发明实施例还提供了一种文本过滤系统,该系统包括:业务设备、过滤设备和存储设备,其中,
所述业务设备,用于将待过滤文本以及承载所述待过滤文本的信息载体的目标标识发送至所述过滤设备;
所述过滤设备,用于根据所述目标标识获取缓存中与所述目标标识对应的过滤关键词集合,并在所述待过滤文本命中所述过滤关键词集合中的任意一个过滤关键词时,对所述待过滤文本执行过滤处理,以实现对所述待过滤文本的拦截;
所述存储设备,用于存储过滤关键词信息,其中,所述过滤关键词信息至少包括:信息载体的标识、与所述信息载体的标识对应的至少一个过滤关键词以及各个所述过滤关键词的时效区间。
第三方面,本发明实施例还提供了一种文本过滤装置,该装置包括:
文本及载体标识获取模块,用于获取待过滤文本以及承载所述待过滤文本的信息载体的目标标识;
过滤关键词集合获取模块,用于获取与所述目标标识对应的过滤关键词集合;
过滤模块,用于如果所述待过滤文本命中所述过滤关键词集合中的任意一个过滤关键词,则对所述待过滤文本执行过滤处理,以实现对所述待过滤文本的拦截。
第四方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任意实施例所述的文本过滤方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任意实施例所述的文本过滤方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙信息科技有限公司,未经广州虎牙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431365.2/2.html,转载请声明来源钻瓜专利网。