[发明专利]敏感数据分析方法、装置、终端设备及存储介质在审

申请号：	202111137129.3	申请日：	2021-09-27
公开（公告）号：	CN113868297A	公开（公告）日：	2021-12-31
发明（设计）人：	彭龙	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F16/2455	分类号：	G06F16/2455;G06F21/62;G06F40/284
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	任敏
地址：	518000 广东省深圳市福田区福田街道益田路5033号平安***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感数据分析方法装置终端设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例适用于人工智能技术领域，提供了一种敏感数据分析方法、装置、终端设备及存储介质，该方法包括：对服务器返回的数据流进行拷贝，得到拷贝数据流；针对拷贝数据流中的任一当前数据，根据当前数据被采样的处理顺序M，以的概率对已确定的N个采样数据进行更新，得到更新后的N个采样数据；对更新后的N个采样数据进行敏感词分析处理，得到敏感词结果。采用上述方法可以使终端设备对于数量未知的数据进行降采样时，能够提供相同的被采样的概率值对其进行降采样处理。

技术领域

本申请属于人工智能技术领域，尤其涉及一种敏感数据分析方法、装置、终端设备及存储介质。

背景技术

随着数据时代的到来，数据中蕴藏的巨大价值得以挖掘，但是对数据中属于敏感数据的保护也变得困难。其中，常见的敏感数据有姓名、身份证号码、住址、电话、银行账号等数据，其均为个人的隐私信息。

目前，对于服务器返回至客户端的数据流，因数据流中通常包含有大量的数据，通常需要通过已有的采样方法对数据进行降采样，以减少所需处理的数据的数量。然而，因每次数据流中包含的数据的数量未知，且每次包含的数量也各不相同，采用已有的降采样方法，对数据流中的数据进行降采样时，均需预先统计数据流中包含的数据的总数量。然后，计算总数量的倒数得到每个数据被采样的概率值。因此，现有的降采样方法具有一定的局限性，无法提供相同的被采样的概率值对数量未知的数据进行降采样处理。

发明内容

本申请实施例提供了一种敏感数据分析方法、装置、终端设备及存储介质，可以解决现有的降采样方法具有一定的局限性，无法提供相同的被采样的概率值对数量未知的数据进行降采样处理的问题。

第一方面，本申请实施例提供了一种敏感数据分析方法，该方法包括：

对服务器返回的数据流进行拷贝，得到拷贝数据流；

针对拷贝数据流中的任一当前数据，根据当前数据被采样的处理顺序M，以的概率对已确定的N个采样数据进行更新，得到更新后的N个采样数据；

对更新后的N个采样数据进行敏感词分析处理，得到敏感词结果。

在一实施例中，对服务器返回的数据流进行拷贝，得到拷贝数据流，包括：

针对数据流中的任一数据，识别数据的数据结构；

对数据中属于目标数据结构的数据进行拷贝，得到数据对应的拷贝数据。

在一实施例中，在根据当前数据被采样的处理顺序M，以的概率对已确定的N个采样数据进行更新，得到更新后的N个采样数据之前，还包括：

若M≤N，则确定当前数据为采样数据，直至得到已确定的N个采样数据。

在一实施例中，根据当前数据被采样的处理顺序M，以的概率对已确定的N个采样数据进行更新，得到更新后的N个采样数据，包括：