[发明专利]隐私保护文本命名实体识别方法、装置、设备及存储介质有效
申请号: | 202110757350.2 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113486665B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 徐睿峰;殷轶平;罗璇;杜嘉晨;刘洋;廖清 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F21/62;G06N3/042;G06N3/047;G06N3/084;G06F18/214;G06F18/2415 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李君 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私 保护 文本 命名 实体 识别 方法 装置 设备 存储 介质 | ||
本发明公开了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,方法包括:接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;根据多个训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,所述学生模型包括第二预训练网络和第二序列标注层;利用训练好的学生模型对无标签文本数据的命名实体进行预测。本发明将知识蒸馏应用于数据分散的真实场景,在数据可用不可见的前提下,通过无标签的迁移集合,训练出强大的学生模型,从而在隐私保护的前提下,保证学生模型在命名实体识别任务上的泛化性和准确性。
技术领域
本发明涉及一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,属于数据隐私保护领域。
背景技术
隐私保护领域,深度学习和机器学习的隐私保护方法可分为五类:基于安全多方计算的方法、基于同态加密的方法、基于随机梯度下降的方法、基于差分隐私的方法和基于知识蒸馏的方法。
原始的知识蒸馏框架(Hinton et al,2015)通常包含一个或多个大型的预训练教师模型和一个小型的学生模型,教师模型通常比学生模型大得多。主要思想是在教师模型的指导下训练高效的学生模型以获得具有竞争力的性能。而来自教师模型的监督信号(通常称为教师模型学到的“知识”)可以帮助学生模型模仿教师模型的行为。
教师-学生蒸馏框架可以保证学生模型在不直接使用教师模型的训练数据的情况下完成模型训练,从而实现学生模型和训练数据的隔离。
目前此领域的方法适用于单数据源场景,但实际应用中多为多数据源训练数据的隐私保护需求,即数据来自不同机构且不能相互公开。此外,多数据源之间存在异构性,即类别不同。目前此类技术不能直接蒸馏异构的知识。
发明内容
有鉴于此,本发明提供了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,其将知识蒸馏应用于数据分散的真实场景,在数据可用不可见的前提下,通过无标签的迁移集合,训练出强大的学生模型,从而在隐私保护的前提下,保证学生模型在命名实体识别任务上的泛化性和准确性。
本发明的第一个目的在于提供一种隐私保护文本命名实体识别方法。
本发明的第二个目的在于提供一种隐私保护文本命名实体识别装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种隐私保护文本命名实体识别方法,所述方法包括:
接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
利用训练好的学生模型对无标签文本数据的命名实体进行预测。
进一步的,所述教师模型通过使用源数据进行训练,具体包括:
通过第一预训练网络编码源数据的上下文信息,获得发射概率矩阵迁移集合;
将发射概率矩阵迁移集合作为第一序列标注层的输入,微调第一预训练网络和第一序列标注层,得到训练好的教师模型。
进一步的,所述根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110757350.2/2.html,转载请声明来源钻瓜专利网。