[发明专利]一种用于少样本意图识别系统的自训练模型构建方法在审
申请号: | 202210069852.0 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114595695A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 杨燕;李程烽;贺樑 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 样本 意图 识别 系统 训练 模型 构建 方法 | ||
本发明公开了一种用于少样本意图识别系统的自训练模型构建方法,其特点是该方法采用特殊样例选择模块筛选不确定较高的样例,在每一次轮自我训练过程中对每一个批次的候选样例选择不确定性最高的一组样例作为候选列表,将其通过自适应主动阈值模块筛选,分为高确定型样例和特殊样例两种类别,其中特殊样例即高不确定性样例送往数据库人工标注,高确定性样例作为自训练模型中的伪标签,最后将两类标注并入训练集中进行下一轮自训练迭代。本发明与现有技术相比具有加快模型的推理速度和减少人工标注成本,降低应用成本和时间成本,有效提高了在电商领域意图识别场景下的准确率,能够应用在多种不同的场景,具有广泛的实用意义。
技术领域
本发明涉及意图识别系统技术领域,具体地的说是一种用于少样本意图识别系统的自训练模型构建方法。
背景技术
意图识别系统最近因其显著的商业潜力而备受关注,此类系统通过对话来对用户意图进行识别,然后根据其意图来对下游的对话系统起到更好的指导作用。
意图识别的目的是将输入语句分类为预先定义的意图类,同时对大多是对话系统起到重要作用。现有的研究大多是基于全监督学习,而全监督学习需要大量的标记数据。然而,在现实场景中,标注是耗时的,并且训练数据的质量会显著影响模型的性能。为了减轻对标记数据的要求,近年来Van等人的调查论文展示了近几十年来半监督学习在如何利用从有限的标记数据学习到无标记数据的信息方面。自我训练作为半监督学习中的一种有效方法,已在各种任务中得到验证,特别是在教师-学生模式中。从理论上讲,自训练首先使用标记数据来训练一个好的教师模型,然后自己生成伪标签,并将这些标签添加到标记池中,以便在下一个循环中训练一个学生。然而,事实上,教师模型通过学习训练数据的特征来生成伪标签,当最迟的训练数据较少时,模型得到的这些伪标签通常不太可靠,而训练集中伪标签数据的权重会随着时间的推移而增加,这些噪声伪标签限制了模型的性能。其中,错误的伪标签大多为下述类型:1)原本训练集中就没有或只有个别例子,模型学不到有质量的特征,也就是不确定的sample;2)现实中存在语义相似但标签不同的样例,它们有着相近的高置信度得分,但是标签却不同。因此如何找出这些不确定样本对进一步提升自训练模型效果很重要。
发明内容
本发明的目的是针对现有技术的不足而提供的一种用于少样本意图识别系统的自训练模型构建方法,采用自训练模型的训练方式结合主动学习的方法,构建特殊样例选择模块和自适应主动阈值模块,在自训练的过程中将筛选出特殊的样例交由数据库进行人工标注,同时生成高置信度的伪标签,不但减少伪标签的噪声和标注少量信息量丰富的样例,而且能够减少了训练过程中的伪标签带来的噪声,以最小化标注成本,最大化模型效果,方法简便,有效提高了在电商领域意图识别场景下的准确率,能够在电子商务、电影评论等多种不同场景中应用,具有广泛的实用意义。
实现本发明目的的具体技术方案是:一种用于少样本意图识别系统的自训练模型构建方法,其特点是该方法包括构建特殊样例选择模块和自适应主动阈值模块,所述特殊样例选择模块筛选不确定较高的样例,在每一次轮自我训练过程中对每一个批次的候选样例选择不确定性最高的一组样例作为候选列表;所述自适应主动阈值模块的阈值由自训练模型中的教师模型的预测分布和已有的真实数据标签分布决定,在通过自适应主动阈值模块筛选后将候选列表分为高确定型样例和特殊样例两种类别,其中特殊样例即高不确定性样例,将其送往数据库人工标注,高确定性样例作为自训练模型中的伪标签,最后将两类标注并入训练集中进行下一轮自训练迭代,改善了自训练模型中伪标签的质量,增加了自训练模型的准确性,该方法的具体实施包括如下步骤:
1)建立自训练教师模型模块
自训练模型从一个已标注数据集(已标注的训练集)Dl开始,然后教师模型被应用于预测无标注数据集(未标记的训练集)Du的一个子集,并将获得的伪标签加入到已标注数据集(已标注的训练集)Dl中重新训练教师模型;自训练的教师-学生模型重复执行,直到未标记的训练集Du全部使用或模型满足收敛标准结束,自训练模型的整体过程可以由下述a式表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210069852.0/2.html,转载请声明来源钻瓜专利网。