[发明专利]一种基于分类置换的中文姓名数据脱敏方法在审
申请号: | 201910485787.8 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110222153A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 李辉;赵柯纯;龚政;孟雪 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F21/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 范巍 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脱敏 姓氏 姓名数据 名字 向量 向量形式 置换 向量相似度 数据库 随机选择 中文 语料库 分类 转换 存储 保留 | ||
本发明公开了一种基于分类置换的中文姓名数据脱敏方法,包括以下步骤:1)对中文人名语料库中的数据按照姓氏和名字分成两类数据,并将其转换为向量形式;2)将两类数据及其向量形式存储到数据库中;3)获取待脱敏姓名数据;4)将待脱敏姓名数据的姓氏及名字分别转换为向量形式;5)获取数据库中与待脱敏姓名的姓氏向量相似度最大的K个姓氏向量;6)在K个姓氏向量中随机选择一个对待脱敏姓名的姓氏进行置换;7)获取数据库中与待脱敏姓名的名字向量相似度最大的N个名字向量;8)在N个名字向量中随机选择一个对待脱敏姓名的名字进行置换,得脱敏后的数据,该方法能够使得名字脱敏后保留姓名本身具有的特点。
技术领域
本发明属于信息安全技术领域,涉及一种基于分类置换的中文姓名数据脱敏方法。
背景技术
大数据时代下的多源异构数据含有大量关键信息,这些信息对企业和个人具有巨大的商业价值,与此同时这些信息也包含了大量的个人隐私数据,其中又以个人姓名能指向更多具体的个人隐私数据为重中之重。这些敏感信息一旦泄露不但可能会给个人带来各种困扰,严重的可能损害其个人声誉以及对人身和财产安全造成危害。此外,发布真实的用户数据供研究者分析和数据挖掘,这在为科研做出重大贡献的同时也成为了泄露大量用户隐私的渠道之一。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,去除敏感性,实现敏感隐私数据的可靠保护。提出数据脱敏是为了在数据保护和数据可用性之间取得平衡,在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下对真实数据进行脱敏改造然后提供给他人进行开发、测试或统计分析。
语言是知识和思维的载体,自然语言处理(Natural Language Processing,NLP)是计算机科学,人工智能,语言学关注计算机和人类语言之间的相互作用的领域。词嵌入是自然语言处理中语言模型与表征学习技术的统称,简言之,它是指每个单词或词组在预定义的向量空间中被映射为实数域上的向量。现有很多种用于构建词嵌入表示的模型,其中word2vec和GloVe是广泛使用的实现之一。如今,在自然语言处理领域,多采用词向量以及深度神经网络结合的方式来进行文本分类。因此,本发明提出将自然语言处理技术与数据脱敏结合在一起,运用自然语言处理技术中基于词向量的中文文本分类功能。
目前,现有对于中文姓名的脱敏技术大概包含以下几种:
a)直接将姓名数据均置换成类似“张三”“李四”这种常见姓名,但是这种方法会造成整个数据表中只有相同的几种姓名数据,无法看出数据的分布情况,不利于数据的统计。
b)对姓名数据进行随机置换,将原姓名每个中文字符的编码进行偏移随机长度以生成另外一个中文字符,但这种随机方法会使生成的脱敏后姓名数据完全丧失中文姓名原有的特征,而且生僻字较多。
c)构建一个中文姓名码表,然后将原来的名字进行哈希映射替换。这样数据的多样性和分布性得以保留,但是需要大量的时间以及空间开销,而且构建的姓名数据数量有限,依然无法做到真正的分布特征的保留。
综上所述,现有的中文姓名脱敏技术存在会造成脱敏后姓名数据失去本身的特点以及不利于数据统计分析再利用的问题。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于分类置换的中文姓名数据脱敏方法,该方法能够使得名字脱敏后保留姓名本身具有的特点,利于数据的统计分析再利用。
为达到上述目的,本发明所述的基于分类置换的中文姓名数据脱敏方法包括以下步骤:
1)对中文人名语料库中的数据按照姓氏和名字分成两类数据,并将得到的两类数据转换为向量形式;
2)将步骤1)得到的两类数据及其向量形式存储到数据库中;
3)获取待脱敏姓名数据;
4)将待脱敏姓名数据的姓氏及名字分别转换为向量形式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910485787.8/2.html,转载请声明来源钻瓜专利网。