[发明专利]针对非结构化文本的个人隐私信息自动检测方法及系统有效
申请号: | 201910147987.2 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109960727B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 柯永振;韩亚雄;杨帅;郭景 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 结构 文本 个人隐私 信息 自动检测 方法 系统 | ||
1.一种针对非结构化文本的个人隐私信息自动检测方法,其特征在于:所述方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本,然后从所述含有隐私信息的文本中识别出实体类信息,最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息;
所述方法包括:
(1)预处理:对非结构化文本进行预处理得到预处理后的文本;
(2)文本分类:对所述预处理后的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本;
(3)命名实体识别:从所述含有隐私信息的文本中识别出实体类信息;
(4)识别结果精细化:分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重;根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息;
所述预处理的操作包括:
读取非结构化文本并构建字符字典;
读取非结构化文本并构建类别词典,所述类别词典中包括两种类别:隐私、非隐私;
将所述非结构化文本处理成多个批次的文本,每个批次的文本的大小根据文本分类器一次能够处理的最大文字数量确定;所述多个批次的文本即为预处理后的文本;
所述文本分类的操作包括:
利用文本分类器对预处理后的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本;
所述命名实体识别的操作包括:
(31)使用基线模型对所述含有隐私信息的文本进行识别得到与所述含有隐私信息的文本对应的一组n-best标注序列;
(32)将所述一组n-best标注序列进行泛化操作,得到新的泛化序列;
(33)将所述新的泛化序列中的每个标注序列依次输入到Re-ranking神经网络中得到每个标注序列的输出标注序列概率,然后利用每个标注序列的所述输出标注序列概率与该标注序列对应的经过基线模型得到的概率值进行差值计算得到该标注序列的最大联合概率;
(34)对一组n-best标注序列中的各个标注序列的最大联合概率进行排序,找到最大的最大联合概率,该最大的最大联合概率所对应的标注序列即为最佳标注序列;
(35)从所述最佳标注序列中找到非O的标注,各个非O的标注对应的信息即为实体类信息;
所述分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重的操作包括:
使用TF-IDF算法分别计算每个所述实体类信息在含有隐私信息的文本中的权重Ssensi和在不含有隐私信息的文本中的权重Snon-sensi,即得到每个实体类信息的两个权重;
所述根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息的操作包括:
通过计算Ssensi-Snon-sensi得到权重的差值,然后判断所述权重的差值是否大于设定的阈值θ,如果是,则判定该实体类信息属于实体类隐私信息,如果否,则判定该实体类信息不属于实体类隐私信息。
2.根据权利要求1所述的针对非结构化文本的个人隐私信息自动检测方法,其特征在于:所述文本分类器采用字符级卷积神经网络。
3.根据权利要求1所述的针对非结构化文本的个人隐私信息自动检测方法,其特征在于:所述步骤(31)中的基线模型采用BILSTM-CRF模型;
所述步骤(33)中的Re-ranking神经网络采用BILSTM结构。
4.一种实现权利要求1-3任一项所述的针对非结构化文本的个人隐私信息自动检测方法的系统,其特征在于:所述系统包括:预处理单元、文本分类单元、命名实体识别单元和识别结果精细化单元;
所述预处理单元:与所述文本分类单元连接,用于读取非结构化文本、构建字符字典和类别词典、将所述非结构化文本处理成多个批次的文本并将各个批次的文本发送给所述文本分类单元;
所述文本分类单元:分别与所述预处理单元、命名实体识别单元、识别结果精细化单元连接;所述文本分类单元利用文本分类器对各个批次的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本,并分别将两个文本存储下来,同时将含有隐私信息的文本发送给命名实体识别单元,将含有隐私信息的文本和不含有隐私信息的文本发送给识别结果精细化单元;
所述命名实体识别单元:分别与所述文本分类单元、识别结果精细化单元连接;所述命名实体识别单元从所述含有隐私信息的文本中识别出实体类信息,并将识别出的实体类信息存储下来并发送给识别结果精细化单元;
所述识别结果精细化单元:分别与所述文本分类单元、命名实体识别单元连接;所述识别结果精细化单元分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重;根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910147987.2/1.html,转载请声明来源钻瓜专利网。