[发明专利]一种基于半监督学习的文本敏感信息识别方法在审
申请号: | 201710147072.2 | 申请日: | 2017-03-13 |
公开(公告)号: | CN106897459A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 梁玲玲 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 成都九鼎天元知识产权代理有限公司51214 | 代理人: | 袁春晓 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 文本 敏感 信息 识别 方法 | ||
技术领域
本发明涉及信息安全技术领域,特别是一种基于半监督学习的文本敏感信息识别方法。
背景技术
对于现代社会而言,数据是企业的资产,数据是人们的隐私,更是众多行业核心竞争力的体现。对企业的关键敏感数据进行有效保护,就能使企业自身在激烈的商业竞争中立于不败之地;对个人敏感信息进行保护,就能防止其泄露产生社会危害。因此近些年来催生了对敏感数据识别的火热研究。该问题涉及文本挖掘和信息安全等多个领域,是数据安全产品数据防护泄漏DLP(Data Leakage Prevention)的核心技术。
现有的敏感信息识别方法包括基础检测技术和高级检测技术两类。基础检查技术包括正则表达式检测、关键字匹配以及文档属性判别等方法;高级检测技术包括精确数据对比(EDM)、指纹文档对比(IDM)等方法。但是这些方法无一例外需要依赖专家搜集的敏感信息数据集,首先通过对这个数据集进行抽象、分析以及学习形成先验知识(敏感词集或其它),然后利用这些先验知识来判别未知样本的敏感程度。在这个过程中,被用于学习的敏感信息数据集合必须尽可能真实完整的反应所属问题域的敏感信息,否则算法的准确性就会大打折扣。然而现实情况是,标注文档性质的人工成本较高,大量的未知文档更易获取,我们很难得到这样一个完备的敏感数据集,导致这些方法的使用受到了限制。
由此可见,目前的敏感信息识别方法还存在问题,亟待提出一种解决上述问题的方案。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种基于半监督学习的文本敏感信息识别方法。
本发明采用的技术方案如下:一种基于半监督学习的文本敏感信息识别方法,具体包括以下过程:步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本,进行半监督学习,得到分类策略知识库;步骤2、对于待检测的文档进行中文分词和去停词处理,得到该文档中的特征元数据;步骤3、用特征向量对特征元数据进行表示,并提取特征值;步骤4、用分类策略知识库对特征值进行敏感文档性质判断,给出为敏感文档或安全文档的判断结果。
进一步的,所述步骤1中,半监督学习过程为:步骤11、构造敏感文档集和未知文档集;步骤12、根据敏感文档集中的样本训练分类器,获取分类器;步骤13、构造未知文档集的子集U’,利用分类器进行子集U’中文档X′的类别判断;步骤14、若类别判断文档X′为敏感文档,则将文档X′标注加入敏感文档集中,如果类别判断文档X′为安全文档,则从未知文档集中删除文档X′;步骤15、迭代步骤11到步骤14直到未知文档集为空集,输出分类策略知识库。
进一步的,训练分类器的过程为:(1)对敏感文档集的文档进行中文分词和去停词处理;(2)利用SVM算法对处理后的敏感文档集进行特征表示;(3)利用信息增益方法对特征进行提取,保留有效的文本特征;(4)采用libsvm工具训练分类器;(5)进行分类器模型评估,改进训练分类器;(6)结束训练,输出分类器。
进一步的,所述步骤3的具体过程为:步骤31、采用向量空间模型,将文档表示成向量x=(t1,t2,…,tk,…,tn),其中tk表示第k个特征项,用向量xi=(wi1,wi2,…,wik,…,wi|V|),其中wik表示特征tk的权重,即在文档X中的重要程度,其中N为敏感文档集的文档总数,Nk为敏感文档集中出现特征项tk的文档数,TF(tK)为特征项出现的频率;步骤32、采取信息增益方法的特征提取算法来提取特征值。
与现有技术相比,采用上述技术方案的有益效果为:本发明对少量敏感文档进行标注,对大量位置的位置文档集进行半监督学习,提高了敏感信息识别的可扩展能力和实用性;采用该方法形成的分类策略知识库进行待检测文档的分类判断,有效的检测出待检测文档是敏感文档还是安全文档。
附图说明
图1是本发明半监督学习的敏感信息识别方法示意图。
图2是本发明半监督学习流程示意图。
图3是本发明分类器训练流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710147072.2/2.html,转载请声明来源钻瓜专利网。