[发明专利]一种基于风险评分卡的景区算法应用风险评估方法在审
申请号: | 202211248098.3 | 申请日: | 2022-10-12 |
公开(公告)号: | CN115632845A | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 罗义斌;李军;胡明慧;孙力斌;权骏 | 申请(专利权)人: | 南京联创数字科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L41/142;H04L41/16;H04L67/12;G06Q10/0635;G06Q50/14 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210019 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 风险 评分 景区 算法 应用 评估 方法 | ||
1.一种基于风险评分卡的景区算法应用风险评估方法,其特征是,将算法应用风险分为内生风险和外生风险两大类,算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子,算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子,结合个人信息安全影响需求对多种因子进行归一化和权重分配,构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分,生成风险评分报告,满足景区自查及上级监管部门对算法应用的监管需求;具体步骤为,
(1)算法应用内生风险指标抽取;从算法开发厂家提供的算法应用白皮书等说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标;
·算法数据输入指标主要包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式等;
·算法架构设计相关指标主要包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件等;
·算法训练数据相关指标主要包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件等;
·算法推理服务相关指标主要包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量等;
·算法输出数据相关指标主要包含匿名机制是否有效、是否为个性化展示提供可控制或可关闭机制、输出结果是否可定位到个人等;
(2)算法应用外生风险指标抽取;从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标;相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次;
(3)算法应用内生风险指标和外生风险指标经过数据预处理模块生成风险特征向量Xfeat;
·数据拼接;将内生风险指标与外生风险指标拼接为风险指标特征向量,每一行代表一个景区,每一列代表一个指标数据;
·数据分类;风险指标按数据类型分为类别变量和连续变量;类别变量主要为诸如是否存储个人隐私数据、数据存储介质类型等状态是否存在、状态的有限类型等相关数据;连续变量主要为漏洞或事件发生的频次、数量等;
·数据清洗;不同景区信息系统的安全防护等级不一致,因此风险指标存在缺失值、分布异常等异常值问题。对于类别变量清洗默认填充为0,表示当前数据正常,连续变量清洗采用中值填充;
·数据映射;连续变量通过卡方分箱方式将连续值分为几个区块,将连续变量转换为类别变量;针对类别变量采用One-Hot方式进行处理,将类别变量映射至欧式空间;
(4)基于因果正则化抽取特征向量与目标变量之间的因果关系,结合逻辑回归算法训练评分卡模型;
·人工标记景区投诉事件作为训练标签Ytrain,与算法应用相关为1,否则为0;用第(3)步抽取事件相关的内生风险因子Xinner={Xinner1,Xinner2,…Xinnerm}和外生风险因子Xouter={Xouter1,Xouter2,…Xouter},进行拼接生成训练特征变量Xtrain={Xinnner1,Xinner2,…Xinnerm,Xouter1,Xouter2,…Xoutern};
·引入系数W,让处理变量为0和1时的混淆项的矩最小化,消除训练样本与真实样本分布差异,实现混淆平衡,保证变量与目标之间的关系为因果关系;其中
·逻辑回归表达式可表示为θ=WX+β,结合因果正则化结果逻辑回归目标函数可以优化为J(w,β)(W≥0)使得风险评分映射为[0,1]之间;其中
其中权衡系数γi0(i=1,2,3,4,5),初始化β和W,计算当前J(w,β),直至J(w,β)收敛或达到最大迭代次数,返回因果系数β和样本权重W。
·评分公式则可转换为base是基准分,也就是赋给景区风险的基础分数,所有算法应用风险分数在这个分数上面进行加减;P正样本是上一步计算出来的概率;lift是提升分数;默认lift设置为50、base设置为600。
(5)对景区内现有算法应用和待上线算法应用采用申报预审方式进行风险评估,收集算法应用的内生指标和外生指标组成Xtest,将特征向量输入上述模型即可得到算法应用风险评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京联创数字科技有限公司,未经南京联创数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211248098.3/1.html,转载请声明来源钻瓜专利网。