[发明专利]一种敏感资讯检测方法、装置、设备及系统在审
申请号: | 201911406504.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159354A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 赵庆;李瑞男;狄潇然 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06K9/62;G06Q40/06 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周达;刘飞 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感 资讯 检测 方法 装置 设备 系统 | ||
本说明书实施例公开了一种敏感资讯检测方法、装置、设备及系统。所述方法包括获取资讯信息;判断所述资讯信息中是否存在预设敏感词库包括的敏感词;确定不存在时,将所述资讯信息输入预先构建的资讯检测模型中,所述资讯检测模型基于不符合信息规范的资讯文本训练获得;获取所述资讯检测模型输出的资讯检测结果。利用本说明书实施例可以减少人工审核的成本与压力,有效提高对资讯的检测效率与检测质量,最大程度减少敏感资讯而产生的不良影响。
技术领域
本说明书实施例方案属于信息检测技术领域,尤其涉及一种敏感资讯检测方法、装置、设备及系统。
背景技术
国际化的金融资讯平台通过接口接收国外/境外金融资讯时,经常会出现不符合资讯类信息规范的内容,这样资讯平台就需要逐条对资讯内容做人工审核,从而耗费大量资源。
为解决金融资讯中敏感词汇不符合我国资讯类信息规范的法律等话题以及影响公司客户群体利益的资讯,需要提高对资讯的检测效率与检测质量。目前对资讯进行检测时,主要使用map数据字典的方式进行检测,在循环遍历文本内容之后,根据敏感词词库内容做出匹配,当在文本中匹配出敏感词词库中包含的内容时即判定为敏感信息。然而这种检测算法的时间复杂度较差,漏检率较高,同时对文字较隐晦的不合规资讯检测效果较差。
因此,业内亟需一种对资讯检测效率更高的解决方案。
发明内容
本说明书实施例在于提供一种敏感资讯检测方法、装置、设备及系统,可以减少人工审核的成本与压力,有效提高对资讯的检测效率与检测质量,最大程度减少敏感资讯而产生的不良影响。
本说明书提供的一种敏感资讯检测方法、装置、设备及系统是包括以下方式实现的:
一种敏感资讯检测方法,包括:
获取资讯信息;
判断所述资讯信息中是否存在预设敏感词库包括的敏感词;
确定不存在时,将所述资讯信息输入预先构建的资讯检测模型中,所述资讯检测模型基于不符合信息规范的资讯文本训练获得;
获取所述资讯检测模型输出的资讯检测结果。
本说明书提供的所述方法的另一个实施例中,所述判断所述资讯信息中是否存在预设敏感词库包括的敏感词,包括:
利用AC自动机对资讯信息进行逐字扫描,获得扫描结果;
将所述扫描结果与预设敏感词库进行对比,确定所述资讯信息中是否存在敏感词。
本说明书提供的所述方法的另一个实施例中,所述判断所述资讯信息中是否存在敏感词,还包括:
确定存在时,将所述资讯信息标记为敏感资讯;
将所述敏感资讯不显示或将所述敏感资讯转交人工审核。
本说明书提供的所述方法的另一个实施例中,所述预先构建的资讯检测模型包括采用下述方式得到:
获取不符合信息规范的资讯文本,所述不符合信息规范的资讯文本不包括敏感词;
将所述不符合信息规范的资讯文本进行向量化处理,获得资讯词向量;
将所述资讯词向量输入预先建立的朴素贝叶斯模型进行训练,获取训练结果;
基于所述训练结果,对所述朴素贝叶斯模型进行校正,获得资讯检测模型。
本说明书提供的所述方法的另一个实施例中,所述确定不存在时,将所述资讯信息输入预先构建的资讯检测模型中,包括:
确定不存在时,将所述资讯信息进行向量化处理,获得与资讯信息对应的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911406504.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信息处理方法及装置
- 下一篇:一种KS引导自动化批量装机的方法及系统