[发明专利]基于差分隐私的文本处理模型的训练方法及装置在审
申请号: | 202210917682.7 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115345293A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 杜健 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F16/35;G06F21/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 隐私 文本 处理 模型 训练 方法 装置 | ||
本说明书实施例提供一种基于差分隐私的文本处理模型的训练方法及装置。该方法包括:首先,将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果。然后,基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。如此,通过在训练阶段的前向传播过程中对隐私表征进行差分隐私处理,实现在保证训练数据隐私安全的同时,加速模型收敛并有效提升模型的预测性能。
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种基于差分隐私的文本处理模型的训练方法及装置。
背景技术
随着机器学习的迅猛发展,机器学习模型被广泛应用于各种各样的业务场景。在许多领域涉及到文本处理,例如,智能客服问答、机器翻译、文本分析分类,等等。可以理解,对于文本处理模型,其预测性能依赖于训练文本的丰富程度,训练文本越贴合实际应用场景、数据量越大,训练出的模型性能越优异。
然而,训练好的文本处理模型存在泄露训练文本的风险,例如,攻击者可以通过调用训练好的模型,判断某个文本是否位于训练文本集中,而训练文本往往涉及用户等业务对象的隐私。因此,迫切需要一种方案,使得训练好的文本处理模型能够有效保护训练数据的隐私安全,同时,具有良好的预测性能。
发明内容
本说明书一个或多个实施例描述了一种基于差分隐私的文本处理模型的训练方法及装置,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,从而在保证训练数据隐私安全的同时,使得训练出的模型具有优良的预测性能。
根据第一方面,提供一种基于差分隐私的文本处理模型的训练方法,包括:将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
在一个实施例中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层所输出的目标原始表征进行加噪,得到目标加噪表征,包括:基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到目标裁剪表征;利用基于所述裁剪阈值和预设的隐私预算确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述目标裁剪表征上叠加所述高斯噪声,得到所述目标加噪表征。
在一个具体的实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私预算为总隐私预算;所述方法还包括:基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。
在一个更具体的实施例中,计算所述噪声功率,包括:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、所述训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值和所述裁剪阈值,确定所述噪声功率。
根据第二方面,提供一种基于差分隐私的文本处理模型的训练方法,包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括:对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集;针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到文本处理结果;基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210917682.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示页面的方法和装置
- 下一篇:对话标注数据的生成方法及装置