[发明专利]基于关联规则挖掘的涉及个人信息公示网页判定方法、电子设备及存储介质在审
申请号: | 202210055121.0 | 申请日: | 2022-01-18 |
公开(公告)号: | CN114462081A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 于佳华;刘琨;常远;张光耀;孙巍 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心黑龙江分中心 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/9035;G06F16/951;G06F16/2458;G06F40/289 |
代理公司: | 哈尔滨市晨晟知识产权代理有限公司 23219 | 代理人: | 宫晓平 |
地址: | 150001 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 规则 挖掘 涉及 个人信息 公示 网页 判定 方法 电子设备 存储 介质 | ||
1.基于关联规则挖掘的涉及个人信息公示网页判定方法,其特征在于,包括以下步骤:
步骤S1,爬取公示公告网页,形成网页集合W,通过人工标注,形成个人信息网页集合WP,非个人信息网页集合WN;
步骤S2,对个人信息网页集合WP中的每一个网页Webpage进行中文分词,并标注词性,形成个人信息公示网页分词集合WPP;
步骤S3,对个人信息公示网页分词集合WPP进行过滤,形成个人信息公示网页分词过滤集合WPPS;
步骤S4,对个人信息公示网页分词过滤集合WPPS进行关联规则挖掘计算,得到频繁项集集合FI;
步骤S5,验证频繁项集集合FI判定公示公告网页涉及个人信息的误报率、漏报率指标是否满足要求;
步骤S6,根据验证结果调整步骤S3的词性黑名单、词语黑名单和步骤S4的支持度support,并重新执行步骤S3至步骤S6,直到频繁项集集合FI判定公示公告网页涉及个人信息的误报率、漏报率满足要求;
步骤S7,应用频繁项集集合FI对新公示公告网页进行是否涉及个人信息判定。
2.根据权利要求1所述的基于关联规则挖掘的涉及个人信息公示网页判定方法,其特征在于,所述步骤S1,爬取公示公告网页,形成网页集合W,通过人工标注,形成个人信息网页集合WP,非个人信息网页集合WN,具体过程如下:
步骤S11,爬取网站上的所有公示公告网页,解析网页的TITLE、网页内容、附件名称和附件内容,将公示公告内容包含对个人信息有帮助的网页元素形成网页集合W;
W={Webpage1,Webpage2,Webpage3...} (1)
式(1)中,Webpage是某一网页的TITLE、网页内容、附件名称和附件内容网页元素的连接字符串;
步骤S12,对所爬取的公示公告网页进行人工分析,标注出包含姓名、手机号码、身份证号码、家庭住址、工作单位个人信息的网页,形成个人信息网页集合WP,非个人信息网页集合WN;
WP={w|w∈W,w包含个人信息} (2)
WN={w|w∈W,w不包含个人信息} (3)
W=WP∪WN (4)。
3.根据权利要求2所述的基于关联规则挖掘的涉及个人信息公示网页判定方法,其特征在于,所述步骤S2,对个人信息网页集合WP中的每一个网页Webpage进行中文分词,并标注词性,形成个人信息公示网页分词集合WPP,具体过程如下:
WPP={WebpageP1,WebpageP2,WebpageP3...} (5)
式(5)中,WebpageP是WP中某一网页Webpage的中文分词集合。
4.根据权利要求3所述的基于关联规则挖掘的涉及个人信息公示网页判定方法,其特征在于,所述步骤S3,对个人信息公示网页分词集合WPP进行过滤,形成个人信息公示网页分词过滤集合WPPS,具体过程如下:
步骤S31,按词性黑名单过滤,过滤的词性包括但不限于标点符号、拟声词、时间词、助词、数词、字符串、量词、区别词、名词-地名、名词-人名、名词-惯用语;
步骤S32,按词语黑名单过滤,形成个人信息公示网页分词过滤集合WPPS;
WPPS={WebpagePS1,WebpagePS2,WebpagePS3...} (6)
式(6)中,WebpagePS是WPP中某一网页过滤后的中文分词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心黑龙江分中心,未经国家计算机网络与信息安全管理中心黑龙江分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210055121.0/1.html,转载请声明来源钻瓜专利网。