[发明专利]敏感数据识别方法、装置、计算机设备及存储介质在审
| 申请号: | 202310381830.2 | 申请日: | 2023-04-11 |
| 公开(公告)号: | CN116629253A | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 柳遵梁;李志刚;周杰;闻建霞;胡宝华;韩雯霞;干忠光 | 申请(专利权)人: | 杭州美创科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F18/241 |
| 代理公司: | 杭州知学知识产权代理事务所(普通合伙) 33356 | 代理人: | 张雯 |
| 地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感数据 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了敏感数据识别方法、装置、计算机设备及存储介质。所述方法包括:获取企业的资产集合的数据内容;对所述数据内容进行结构化调整,以得到结构化数据集合;初始化识别引擎;利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;对所述识别结果进行数据资产敏感类型划分,以得到划分结果;根据所述划分结果生成可视化报告。通过实施本发明实施例的方法可实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。
技术领域
本发明涉及数据处理方法,更具体地说是指敏感数据识别方法、装置、计算机设备及存储介质。
背景技术
当前正处于数字化变革时代,企业需要不断挖掘和利用数据,以其为核心展开商业运营从而创造价值带来营收。此时的数据已经转换成了数据资产,即企业拥有或控制的能在未来带来经济利益的数据资源。在数据资产化过程中,很多企业特别是中小型企业都会存在很多关于数据的困惑,一方面,所有的企业都期望通过利用数据去变现去创造价值,同时又由于对自身数据的掌握和了解不够,无法将企业本身的数据创造出应有的价值。
在敏感数据无处不在、业务越来越复杂的生产业务系统中,业务系统后台数据库表的规模越来越庞大、结构越来越复杂,现有技术并不能自动识别出企业数据中的敏感数据,无法降低企业在数据使用中敏感数据泄密风险。
因此,有必要设计一种新的方法,实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。
发明内容
本发明的目的在于克服现有技术的缺陷,提供敏感数据识别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:敏感数据识别方法,包括:
获取企业的资产集合的数据内容;
对所述数据内容进行结构化调整,以得到结构化数据集合;
初始化识别引擎;
利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;
对所述识别结果进行数据资产敏感类型划分,以得到划分结果;
根据所述划分结果生成可视化报告。
其进一步技术方案为:所述获取企业数据内容,包括:
从企业数据资产中获取数据源信息;
从所述数据源信息中抽取资产集合的数据内容。
其进一步技术方案为:所述数据源信息包括企业数据库类型、数据库和服务器资源的连接信息。
其进一步技术方案为:所述对所述数据内容进行结构化调整,以得到结构化数据集合,包括:
对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;
将所述结构化数据集合保存在应用内存中。
其进一步技术方案为:所述初始化识别引擎,包括:
读取多个行业的NLP词向量集合文件;
调用识别引擎初始化插件完成NLP词向量集合文件加载,并进行NLP词向量集合的构建;
对完成构建的NLP词向量集合按行业分类。
其进一步技术方案为:所述利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果,包括:
选择所述结构化数据集合的资产所属行业,并获取对应的NLP词向量集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州美创科技股份有限公司,未经杭州美创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310381830.2/2.html,转载请声明来源钻瓜专利网。





