[发明专利]一种基于风险评分卡的景区算法应用风险评估方法在审

申请号：	202211248098.3	申请日：	2022-10-12
公开（公告）号：	CN115632845A	公开（公告）日：	2023-01-20
发明（设计）人：	罗义斌;李军;胡明慧;孙力斌;权骏	申请（专利权）人：	南京联创数字科技有限公司
主分类号：	H04L9/40	分类号：	H04L9/40;H04L41/142;H04L41/16;H04L67/12;G06Q10/0635;G06Q50/14
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210019 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于风险评分景区算法应用评估方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于风险评分卡的景区算法应用风险评估方法，其特征是，将算法应用风险分为内生风险和外生风险两大类，算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子，算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子，结合个人信息安全影响需求对多种因子进行归一化和权重分配，构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分，生成风险评分报告，满足景区自查及上级监管部门对算法应用的监管需求；具体步骤为，

(1)算法应用内生风险指标抽取；从算法开发厂家提供的算法应用白皮书等说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标；

·算法数据输入指标主要包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式等；

·算法架构设计相关指标主要包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件等；

·算法训练数据相关指标主要包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件等；

·算法推理服务相关指标主要包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量等；

·算法输出数据相关指标主要包含匿名机制是否有效、是否为个性化展示提供可控制或可关闭机制、输出结果是否可定位到个人等；

(2)算法应用外生风险指标抽取；从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标；相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次；

(3)算法应用内生风险指标和外生风险指标经过数据预处理模块生成风险特征向量X_feat；

·数据拼接；将内生风险指标与外生风险指标拼接为风险指标特征向量，每一行代表一个景区，每一列代表一个指标数据；

·数据分类；风险指标按数据类型分为类别变量和连续变量；类别变量主要为诸如是否存储个人隐私数据、数据存储介质类型等状态是否存在、状态的有限类型等相关数据；连续变量主要为漏洞或事件发生的频次、数量等；

·数据清洗；不同景区信息系统的安全防护等级不一致，因此风险指标存在缺失值、分布异常等异常值问题。对于类别变量清洗默认填充为0，表示当前数据正常，连续变量清洗采用中值填充；

·数据映射；连续变量通过卡方分箱方式将连续值分为几个区块，将连续变量转换为类别变量；针对类别变量采用One-Hot方式进行处理，将类别变量映射至欧式空间；

(4)基于因果正则化抽取特征向量与目标变量之间的因果关系，结合逻辑回归算法训练评分卡模型；

·人工标记景区投诉事件作为训练标签Y_train，与算法应用相关为1，否则为0；用第(3)步抽取事件相关的内生风险因子X_inner＝{X_inner1,X_inner2,…X_innerm}和外生风险因子X_outer＝{X_outer1,X_outer2,…X_outer}，进行拼接生成训练特征变量X_train＝{X_innner1,X_inner2,…X_innerm,X_outer1,X_outer2,…X_outern}；