[发明专利]用于检测对话策略学习中模拟用户经验质量的方法和系统有效
申请号: | 202110532470.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN112989016B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 曹江;吴冠霖;方文其;平洋;栾绍童;闫顼 | 申请(专利权)人: | 南湖实验室 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06N3/00;G06N20/00 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 陆永强;张晓英 |
地址: | 314001 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 对话 策略 学习 模拟 用户 经验 质量 方法 系统 | ||
本发明提供了一种用于检测对话策略学习中模拟用户经验质量的方法和系统,其方法包括以下步骤:S1.由世界模型生成模拟经验;S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。本方案引入了基于KL散度的质量检测器,能够更轻松有效地评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率,实现有效控制模拟经验质量的目的。
技术领域
本发明属于机器学习技术领域,尤其是涉及一种用于检测对话策略学习中模拟用户经验质量的方法和系统。
背景技术
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统,该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手,例如苹果的Siri和微软的Cortana。
近年来,强化学习逐渐成为了对话策略学习的主流方法。基于强化学习,对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略,以提高性能。但是,原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互,这不仅增加了训练成本,而且还恶化了早期训练阶段的用户体验。
为了解决上述问题并加速对话策略的学习过程,研究者们在Dyna-Q框架的基础上,提出了Deep Dyna-Q(DDQ)框架。DDQ框架引入了世界模型,为了使其与真实用户更相似,该模型使用真实用户经验进行训练,用以在动态环境中生成模拟用户经验,以下简称模拟经验。在对话策略的学习过程中,使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型,只需要使用少量的真实用户交互,可以显著提升对话策略的学习效率,然而,DDQ在进一步优化基于有限对话交互的对话策略学习方面,还面临着一些难题,例如,世界模型产生的模拟经验并不一定会改善性能,低质量的模拟经验甚至会对性能造成严重的负面影响。近来的一些研究为了解决这个问题,尝试使用生成式对抗网络(GAN)来区分低质量经验以控制模拟经验的质量。但是,对GAN进行训练存在极大的不稳定性问题,其在很大概率上会导致对话策略学习不收敛,并且对超参数的选择高度敏感,使对话学习性能受到严重制约。因此,如何有效筛去除对话策略学习过程中的低质量经验,这个问题仍有待解决,且十分重要。
发明内容
本发明的目的是针对上述问题,提供一种用于检测对话策略学习中模拟用户经验质量的方法及其系统。
为达到上述目的,本发明采用了下列技术方案:
一种用于检测对话策略学习中模拟用户经验质量的方法,包括以下步骤:
S1.由世界模型生成模拟经验;
S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;
S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。
在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,基于KL散度的质量检测器通过对比模拟经验与真实经验来进行模拟经验的质量检测。
在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S3中,将质量检测合格的模拟经验存储至缓冲器以用于对话策略模型训练。
在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,根据世界模型生成的模拟经验更新词库world-dict,根据真实用户生成的真实经验更新词库real-dict,并通过KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测。
在上述的用于检测对话策略学习中模拟用户经验质量的方法中,词库world-dict的主键为世界模型生成的用户动作,主键对应值为用户动作对应的频率;
词库real-dict的主键为真实用户生成的用户动作,主键对应值为用户动作对应的频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南湖实验室,未经南湖实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532470.2/2.html,转载请声明来源钻瓜专利网。