[发明专利]一种数据处理方法、装置及设备有效
申请号: | 202210022769.8 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114417883B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 李长林;权佳成;曹磊 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/268;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 张敏 |
地址: | 401120 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
本说明书实施例公开了一种数据处理方法、装置及设备,该方法包括:获取待识别的目标文本;基于第一敏感词集合对目标文本进行敏感词筛选,得到目标文本中包含的第一敏感词,第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;若第一敏感词在预设语境下的语义唯一,则确定第一敏感词为目标文本中的目标敏感词;若第一敏感词在预设语境下的语义不唯一,则基于目标文本、第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征,确定第一敏感词是否为目标文本中的目标敏感词。通过上述方法,有效提高了对敏感词进行识别的准确率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
随着互联网技术的快速发展,互联网上的信息内容急剧增多,然而,在这些信息中可能携带着一些违法违规的不良信息,包括极端言论、赌博、欺诈等内容,这些内容严重影响到互联网的信息安全。
目前,针对文本类的不良信息,现有的识别方法通常为通过预先设置好的敏感词,对获取到的文本信息进行匹配识别,并将匹配到的词语作为该文本信息的敏感词。然而,上述设置的敏感词中的很多敏感词在某些语境下可能并不能做为敏感词,例如,针对敏感词“黄色”来说,它在特殊的语境中所表达的语义会被作为敏感内容,而它在如“一朵黄色的小花”等语境中所表达的语义则应为非敏感内容,而不应作为敏感词输出。因此,通过上述方式对敏感词进行检测可能存在识别准确率低、误报率高等问题。
发明内容
本说明书实施例的目的是提供一种能够有效提高敏感词识别准确率的技术问题。
为了解决上述技术问题,本发明实施例是这样实现的:
第一方面,本说明书实施例提供了一种数据处理方法,包括:
获取待识别的目标文本;
基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
第二方面,本说明书实施例提供了一种数据处理装置,包括:
文本获取模块,被配置为获取待识别的目标文本;
敏感词筛选模块,被配置为基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
第一敏感词确定模块,被配置为若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
第二敏感词确定模块,被配置为若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
第三方面,本说明书实施例提供的一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的数据处理方法中的步骤。
第四方面,本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的数据处理方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210022769.8/2.html,转载请声明来源钻瓜专利网。