[发明专利]一种违规变形文字检测方法、系统、设备及存储介质在审
| 申请号: | 202111364341.3 | 申请日: | 2021-11-17 |
| 公开(公告)号: | CN114238614A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 刘海东 | 申请(专利权)人: | 广州市百果园网络科技有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/205;G06F40/253;G06K9/62 |
| 代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
| 地址: | 510000 广东省广州市番禺*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 违规 变形 文字 检测 方法 系统 设备 存储 介质 | ||
本申请实施例公开了一种违规变形文字检测方法、系统、设备及存储介质。本申请实施例提供的技术方案,通过获取待检测文本,确定该待检测文本包含的第一单词;根据该第一单词查询历史数据库,确定与该第一单词关联的第二单词,该历史数据库用于存储历史输入文本,各个该历史输入文本之间根据自身包含的相同单词进行串联;基于该第一单词和该第二单词构建文本向量;将该文本向量输入违规文字检测模型,输出该待检测文本的文字检测结果。采用上述技术手段,通过串联历史文本,以根据历史文本查询待检测文本的关联单词,进而实现违规变形文字的检测,以此来提升违规文字的检测精度,优化违规文字的检测效果。
技术领域
本申请实施例涉及文字检测技术领域,尤其涉及一种违规变形文字检测方法、系统、设备及存储介质。
背景技术
目前,在很多社交软件的文字应用场景中,都需要对用户输入的文字进行违规检测,以拦截违规表达的文字,维护和谐的网络社交环境。现有的违规文字检测方法主要依赖网络模型,网络模型利用大量的文本和计算力来实现庞大的模型预训练任务,使得预训练后的模型具备文本特征提取能力,进而实现文字违规检测。
但是,传统的网络模型大多基于结构完整,语义连贯的文字语料进行模型构建。而为了对抗违规文字检测,违规文字表达大多存在语法、语义变形的特点。基于现有的网络模型进行违规文字检测时,难以对违规用户输入的变形文字表达进行检测,导致违规变形文字的检测效果欠佳。
发明内容
本申请实施例提供一种违规变形文字检测方法、系统、设备及存储介质,能够提升违规文字检测精度,解决现有网络模型的违规变形文字检测误差问题。
在第一方面,本申请实施例提供了一种违规变形文字检测方法,包括:
获取待检测文本,确定待检测文本包含的第一单词;
根据第一单词查询历史数据库,确定与第一单词关联的第二单词,历史数据库用于存储历史输入文本,各个历史输入文本之间根据自身包含的相同单词进行串联;
基于第一单词和第二单词构建文本向量;
将文本向量输入违规文字检测模型,输出待检测文本的文字检测结果。
在第二方面,本申请实施例提供了一种违规变形文字检测系统,包括:
确定模块,用于获取待检测文本,确定待检测文本包含的第一单词;
查询模块,用于根据第一单词查询历史数据库,确定与第一单词关联的第二单词,历史数据库用于存储历史输入文本,各个历史输入文本之间根据自身包含的相同单词进行串联;
构建模块,用于基于第一单词和第二单词构建文本向量;
检测模块,用于将文本向量输入违规文字检测模型,输出待检测文本的文字检测结果。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的违规变形文字检测方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的违规变形文字检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园网络科技有限公司,未经广州市百果园网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111364341.3/2.html,转载请声明来源钻瓜专利网。





