[发明专利]基于深度学习的敏感信息查询方法在审
申请号: | 202011482836.1 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112597770A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 綦大勇;梁媛媛;王琦;朱霖;邓晓露;陈华 | 申请(专利权)人: | 盐城数智科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08;G06F16/33 |
代理公司: | 盐城市大丰区丰晟知识产权代理事务所(特殊普通合伙) 32454 | 代理人: | 邵珑;葛潇敏 |
地址: | 224199 江苏省盐城市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 敏感 信息 查询 方法 | ||
本发明公开一种基于深度学习的敏感信息查询方法,包括如下步骤:步骤1,对待查询文本进行分词处理,然后转换为特征向量;步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。此种基于深度学习的敏感信息查询方法,一方面通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;另一方面,通过引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。
技术领域
本发明属于信息查询技术领域,特别涉及一种基于深度学习的敏感信息查询方法。
背景技术
在公众平台发布信息时,通常需要进行敏感词检查,对于违反法律或者公序良俗的内容不予公开。最初是采用人工审核,但是随着越来越多的人使用互联网发表信息,人工审核速度非常慢,而且容易遗漏,效果不佳;随着自然语言查询技术的发展,人们开始采用各种查询方案进行自动筛选,查询要发布的信息中是否包含文本库中的内容,但是这种查询方式比较机械,容易出现误操作,例如,在语句“ABCDEFG”中,AB是一个词组,CD是一个词组,BC是敏感词,那么现有的查询方式就会判定该句中存在敏感词,导致误判。
深度学习的概念由Hinton等人于2006年提出,它是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。深度学习是无监督学习的一种,其概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
发明内容
本发明的目的,在于提供一种基于深度学习的敏感信息查询方法,其可提高对待查询文本的分词灵活性,提高查询结果的准确性。
为了达成上述目的,本发明的解决方案是:
一种基于深度学习的敏感信息查询方法,包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
上述步骤1中,还对分词处理后的结果进行人工抽查复核。
上述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满足置信度要求的分词规则。
上述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度。
上述神经网络模型的代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
上述步骤2中,敏感词词库包含现有敏感词词库及自定义的敏感词。
采用上述方案后,本发明具有以下改进:
(1)本发明通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;
(2)本发明引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。
具体实施方式
以下将结合具体实施例,对本发明的技术方案及有益效果进行详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城数智科技有限公司,未经盐城数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482836.1/2.html,转载请声明来源钻瓜专利网。