[发明专利]敏感数据分析方法、装置、终端设备及存储介质在审
申请号: | 202111137129.3 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113868297A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 彭龙 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F21/62;G06F40/284 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 分析 方法 装置 终端设备 存储 介质 | ||
本申请实施例适用于人工智能技术领域,提供了一种敏感数据分析方法、装置、终端设备及存储介质,该方法包括:对服务器返回的数据流进行拷贝,得到拷贝数据流;针对拷贝数据流中的任一当前数据,根据当前数据被采样的处理顺序M,以的概率对已确定的N个采样数据进行更新,得到更新后的N个采样数据;对更新后的N个采样数据进行敏感词分析处理,得到敏感词结果。采用上述方法可以使终端设备对于数量未知的数据进行降采样时,能够提供相同的被采样的概率值对其进行降采样处理。
技术领域
本申请属于人工智能技术领域,尤其涉及一种敏感数据分析方法、装置、终端设备及存储介质。
背景技术
随着数据时代的到来,数据中蕴藏的巨大价值得以挖掘,但是对数据中属于敏感数据的保护也变得困难。其中,常见的敏感数据有姓名、身份证号码、住址、电话、银行账号等数据,其均为个人的隐私信息。
目前,对于服务器返回至客户端的数据流,因数据流中通常包含有大量的数据,通常需要通过已有的采样方法对数据进行降采样,以减少所需处理的数据的数量。然而,因每次数据流中包含的数据的数量未知,且每次包含的数量也各不相同,采用已有的降采样方法,对数据流中的数据进行降采样时,均需预先统计数据流中包含的数据的总数量。然后,计算总数量的倒数得到每个数据被采样的概率值。因此,现有的降采样方法具有一定的局限性,无法提供相同的被采样的概率值对数量未知的数据进行降采样处理。
发明内容
本申请实施例提供了一种敏感数据分析方法、装置、终端设备及存储介质,可以解决现有的降采样方法具有一定的局限性,无法提供相同的被采样的概率值对数量未知的数据进行降采样处理的问题。
第一方面,本申请实施例提供了一种敏感数据分析方法,该方法包括:
对服务器返回的数据流进行拷贝,得到拷贝数据流;
针对拷贝数据流中的任一当前数据,根据当前数据被采样的处理顺序M,以的概率对已确定的N个采样数据进行更新,得到更新后的N个采样数据;
对更新后的N个采样数据进行敏感词分析处理,得到敏感词结果。
在一实施例中,对服务器返回的数据流进行拷贝,得到拷贝数据流,包括:
针对数据流中的任一数据,识别数据的数据结构;
对数据中属于目标数据结构的数据进行拷贝,得到数据对应的拷贝数据。
在一实施例中,在根据当前数据被采样的处理顺序M,以的概率对已确定的N个采样数据进行更新,得到更新后的N个采样数据之前,还包括:
若M≤N,则确定当前数据为采样数据,直至得到已确定的N个采样数据。
在一实施例中,根据当前数据被采样的处理顺序M,以的概率对已确定的N个采样数据进行更新,得到更新后的N个采样数据,包括:
若以的概率确定当前数据不为采样数据,则保持已确定的N个采样数据不变;
若以的概率确定当前数据为采样数据,则以的概率从已确定的N个采样数据中,确定一个需被当前数据更新的替换采样数据;
将当前数据更新替换采样数据,得到更新后的N个采样数据。
在一实施例中,对更新后的N个采样数据进行敏感词分析处理,得到敏感词结果,包括:
针对任一采样数据,识别采样数据,生成文本信息;
对文本信息进分词,得到文本信息的多个文本分词;
根据多个文本分词分别在预设词向量库中的位置信息,确定多个文本分词的分词向量;
根据分词向量分别对多个文本分词进行识别,得到采样数据的敏感词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111137129.3/2.html,转载请声明来源钻瓜专利网。