[发明专利]一种应用程序越界收集个人信息行为的判定方法有效
申请号: | 202211320374.2 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115630357B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 黄诚;陈俊任;王子岩 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F16/35;G06F16/31;G06F40/295;G06F40/14;G06F18/22;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 成都厚为专利代理事务所(普通合伙) 51255 | 代理人: | 王杰 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用程序 越界 收集 个人信息 行为 判定 方法 | ||
本发明公开了一种应用程序越界收集个人信息行为的判定方法,包括:训练Word2vector词嵌入模型;训练命名实体识别模型;训练文本分类模型;确定每种类型的应用程序的基本业务和必要个人信息,形成合规三元组。形成待检测隐私政策文本的XML树结构;计算XML树中节点的title属性值与预定义文本的相似度,若相似度大于阈值,则将该节点中的文本内容作为第二信息;从所述第二信息中提取出业务内容和个人信息类别;利用文本分类模型预测业务内容的业务种类,形成待检测三元组;根据待检测应用程序的类型获取对应的合规三元组,将合规三元组与待检测三元组进行对比。本发明的方法极大提高了对隐私政策文本的解析速度和准确率。
技术领域
本发明涉及信息安全技术领域,特别是涉及一种应用程序越界收集个人信息行为的判定方法。
背景技术
随着国内移动应用程序数量与手机上网网民数量的爆发式增长,用户数据泄漏、个人信息越界收集等问题越发严重,严重威胁了广大用户的个人信息安全。虽然目前已有一些针对移动应用程序行为分析的方法,但是这些方法仍然存在一些不足。例如,隐私政策文本虽然是非结构化数据,但是大多隐私政策通常是隐含一定的结构特征的,例如通常会以序号、小标题等形式来进行分块和引导,每一块描述隐私政策的不同内容,如图1所示,现有方法没有利用这样的结构特征,可能会导致机器学习模型对文本语义的理解出现偏差、模型准确率较低的问题;且现有方法大多使用深度学习模型,可能造成计算量大、效率较低等问题。
发明内容
本发明的目的在于克服现有技术的一项或多项不足,提供一种应用程序越界收集个人信息行为的判定方法。
本发明的目的是通过以下技术方案来实现的:一种应用程序越界收集个人信息行为的判定方法,包括:
S100.获取原始语料库,并基于所述原始语料库训练Word2vector词嵌入模型,所述原始语料库为应用程序市场中各应用程序的隐私政策文本;
S200.基于第一信息进行训练得到用于识别命名实体的命名实体识别模型,所述第一信息为所述原始语料库中关于个人信息收集与使用的描述内容,所述命名实体包括业务内容和个人信息类别;
S300.利用预先标注的数据集训练文本分类模型;
S400.根据预设规则确定每种类型的应用程序的基本业务和必要个人信息,并形成各类应用程序的合规三元组,所述合规三元组包括应用程序类型、基本业务和必要个人信息。
S500.提取待检测隐私政策文本中的序号和小标题作为节点,形成所述待检测隐私政策文本的XML树结构,其中,所述序号作为所述XML树结构中节点的mark属性值,所述小标题作为XML树结构中节点的title属性值;
S600.利用所述Word2vector词嵌入模型计算所述XML树中节点的title属性值与预定义文本的相似度,若相似度大于阈值,则将该节点中的文本内容作为第二信息;S700.利用所述命名实体识别模型从所述第二信息中提取出业务内容和个人信息类别,并形成二元组,所述二元组包括业务内容和个人信息类别;
S800.获取待检测隐私政策文本中包括所述业务内容的描述文本,基于所述描述文本、利用文本分类模型预测所述业务内容的业务种类,并形成待检测三元组,所述待检测三元组包括业务内容、业务种类和个人信息类别;
S900.根据待检测应用程序的类型获取对应的合规三元组,并将获取到的合规三元组与待检测三元组进行对比,判断应用程序是否越界收集个人信息。
优选的,所述命名实体识别模型为LSTM+CRF模型、BiLSTM+CRF模型或ID-CNN+CRF模型。
优选的,所述文本分类模型为SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。
优选的,利用预先标注的数据集训练文本分类模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211320374.2/2.html,转载请声明来源钻瓜专利网。