[发明专利]一种敏感数据自动识别与分类的方法在审

申请号：	201510357662.9	申请日：	2015-06-26
公开（公告）号：	CN104933443A	公开（公告）日：	2015-09-23
发明（设计）人：	王雷;林素标	申请（专利权）人：	北京途美科技有限公司;中国移动通信集团广东有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	北京市西城区阜成门外***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种敏感数据自动识别分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机网络中的信息监控技术领域，具体涉及一种敏感数据自动识别与分类的方法。

背景技术

数据是企业业务的支撑基础，也是企业信息系统的核心部分，一旦数据库管理系统出现问题，将影响整个企业业务的连续性。对敏感数据的保护方案中，核心部分就是从海量的数据中挑选出敏感数据，完成对敏感数据的识别。

目前敏感数据的识别主要依赖于字典匹配方法和人工识别的方法。

字典匹配方法通过人工定义敏感数据的模式匹配式，对数据进行逐一匹配，当发现数据满足模式匹配式时，定义数据为敏感数据。匹配的目标可以是数据元数据，也可以是数据内容。

人工识别方法主要依赖于风险评估师的个人经验进行和预定义的敏感数据字典。风险评估师通常根据预定义的数据模型，例如数据库设计模型、文件系统组织结构等，根据经验判断模型中哪些定义属于敏感数据，然后在这些敏感数据中，采用数据抽样的形式进行敏感数据的发现与识别。

业界大多采用字典匹配方法和人工识别方法相结合的方式对敏感数据进行识别，主要过程如下：用户定义敏感数据模式匹配式，根据预定义的模型确定字典匹配范围，然后使用字典匹配对目标进行匹配扫描，在完成扫描后，通过人工对匹配结果过滤，并对模式数据模式匹配式进行优化。

敏感数据字典匹配方法存在如下缺陷：1、识别精准度低，字典匹配采用的是模式化匹配的方式，因此数据字典的建立决定了敏感数据识别准确度，当字典不完整或者字典建立有误时，会出现识别精度降低的问题；2、分类结果干扰，由于采用字典匹配，因此同一个数据信息会匹配到多个数据字典，由于传统数据字典未能进行加权计算，因此会造成分类结果的干扰，导致分类结果的不准确。

敏感数据人工识别方法存在如下缺陷：1、识别速度慢，由于采用人工处理的方式，在面对大量数据的时候，人工梳理速度相对机器识别速度周期较长，而且对处理人员的专业素质要求较高；2、评判标准不统一，由于敏感数据识别过程主要依赖与人的主观判断，因此不同的人对相同的数据可能会出现不同的评判标准，甚至同一个人在不同时间所识别的结果仍有不同，这就会导致敏感数据识别结果的差异性。

本发明就是要实现在数据字典和匹配规则不完整的情况下，仍可以精准、告诉的对敏感数据进行识别，并保证识别和分类结果的一致性。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为提供一种敏感数据自动识别与分类的方法。

为了实现上述目的，本发明采用如下技术方案：

一种敏感数据自动识别与分类的方法，包括如下步骤：

步骤一：建立基础数据语料库；

步骤二：敏感特征提取，建立敏感词汇语料库；

步骤三：对分类和识别目标提取敏感特征，与敏感词汇语料库进行匹配，完成敏感数据的自动识别。

进一步地，在步骤一中，采用分词技术，对训练数据集进行预处理，剔除无意义的词汇，获得词汇集。

进一步地，分词技术包括英文词汇的Stremming处理，和/或中文词汇的字典法分词处理。

进一步地，在步骤一中，根据TF-IDF对词汇集进行处理，计算出每个词汇的向量加权值；当一个词在所有训练数据集中出现的频率越高时，这个词的重要性也就越高，表明这个词的向量加权值越高。

进一步地，在步骤二中，在获得基础数据语料库后，手工对基础数据语料库进行识别和分类，选取其中具有代表意义的，可被标示敏感数据的词汇，形成敏感词汇语料库。