[发明专利]基于哈希聚类和上下文信息的敏感数据搜索方法有效

专利信息
申请号: 202110703515.8 申请日: 2021-06-24
公开(公告)号: CN113420141B 公开(公告)日: 2022-10-04
发明(设计)人: 张磊;潘志松;潘雨;王帅辉;蒋考林;谢艺菲;李红梅;黎维;刘鑫 申请(专利权)人: 中国人民解放军陆军工程大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/31;G06F16/35;G06F40/205;G06F40/30;G06F40/242;G06F40/247
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 毛雨田
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 哈希聚类 上下文 信息 敏感数据 搜索 方法
【说明书】:

基于哈希聚类和上下文信息的敏感数据搜索方法,涉及一种数据脱敏技术,特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。包括如下三个步骤:基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;根据聚类目标构造上下文语义信息进行语义建模;最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。本发明同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能,在敏感数据识别的关键环节采用该方法,可辅助人工实现脱敏策略制定。提供了敏感数据识别判别的新思路,大大提高了大规模敏感数据识别判别的效率。

技术领域

本发明涉及一种数据脱敏技术,特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。

背景技术

近年来,随着信息技术和因特网的持续发展,数据安全问题的形势越来越严峻,数据脱敏逐渐受到众多单位的重视。传统的数据脱敏研究大多侧重于脱敏方法的实现,缺少权限判决、敏感识别等功能,系统化水平不够高。同时,脱敏算法的选择多为人工指定和自定义配置,智能化水平不够高。此外,模式识别的发展对实现脱敏信息的自动识别提供了技术支持,但在敏感信息分类定级问题上缺少对企业需求的考虑,专业化水平不高。

数据脱敏又可称为数据去隐私化、数据变形,是指在保留数据初始特征的条件下,按需制定脱敏策略和任务,对敏感数据进行变换、修改的技术机制,可以在很大程度上解决敏感数据在非安全环境下使用的问题。数据脱敏实现的难点在于如何同时保障数据的安全及其可用性,其关键就是脱敏算法的选择,但是现阶段而言更多的是一种基于经验进行的决策。

同时,传统的人工标记敏感数据效率低,不适用于大规模文本数据进行脱敏,本发明可通过人工少量标记敏感数据样本,通过上下文语义信息等方法对大规模文本数据的敏感信息进行搜索匹配,尔后进行相应的数据脱敏操作,大大提高了数据脱敏的效率。

发明内容

本发明为解决数据脱敏的过程中过度依靠人工判别,效率低效等弱点,提出了一种基于上下文信息的敏感数据搜索方法技术。该方法同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能,在敏感数据识别的关键环节采用该方法,可辅助人工实现脱敏策略制定。将大规模文本数据中的敏感信息进行检索与匹配,相较于传统数据脱敏方式,本发明提供了敏感数据识别判别的新思路,为数据脱敏方法改进提供了新方法,大大提高了大规模敏感数据识别判别的效率。

本发明对大规模文本数据的敏感信息进行识别判别,便于后期对数据进行脱敏操作,从而大大提高大规模文本数据脱敏的效率。

基于哈希聚类和上下文信息的敏感数据搜索方法,包括如下三个步骤:

1)基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;

2)根据聚类目标构造上下文语义信息进行语义建模;

3)最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。

基于敏感词汇的哈希局部聚类具体包括如下过程:

首先对每个敏感词汇函数gi(i=1,…,L),利用其分别对训练的敏感词汇点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个单词,则每个函数gi都能生成一个哈希表,即一个随机化词典,那么,L个函数g1,…,gL就生成一个词典库。

单个词典生成的详细过程可描述如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110703515.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top