[发明专利]用于检测对话策略学习中模拟用户经验质量的方法和系统有效
申请号: | 202110532470.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN112989016B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 曹江;吴冠霖;方文其;平洋;栾绍童;闫顼 | 申请(专利权)人: | 南湖实验室 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06N3/00;G06N20/00 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 陆永强;张晓英 |
地址: | 314001 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 对话 策略 学习 模拟 用户 经验 质量 方法 系统 | ||
1.一种用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,包括以下步骤:
S1.由世界模型生成模拟经验;
S2.基于KL散度的质量检测器通过对比模拟经验与真实经验对所述的模拟经验进行质量检测;
S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练;
在步骤S2中,根据世界模型生成的模拟经验更新词库world-dict,根据真实用户生成的真实经验更新词库real-dict,通过KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测。
2.根据权利要求1所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S3中,将质量检测合格的模拟经验存储至缓冲器以用于对话策略模型训练。
3.根据权利要求1所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,词库world-dict的主键为世界模型生成的用户动作,主键对应值为用户动作对应的频率;
词库real-dict的主键为真实用户生成的用户动作,主键对应值为用户动作对应的频率。
4.根据权利要求3所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S2中,通过事先定义的变量KLpre跟踪词库real-dict与词库world-dict之间的KL散度以进行相似度衡量。
5.根据权利要求4所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S2中,词库real-dict与词库world-dict的交集主键在两个词库中的频率值被存储在词库same-dict中,并基于词库same-dict计算当前的KL散度,若当前KL散度小于或等于KLpre,则判断当前经验为合格经验。
6.根据权利要求4或5所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S2中,当词库same-dict的长度小于常量C时判断当前经验为合格经验。
7.一种用于检测对话策略学习中模拟用户经验质量的系统,其特征在于,包括连接于世界模型、真实用户经验库和对话策略模型的质量检测器,且所述的质量检测器包括KL散度检测器,KL散度检测器用于根据真实用户生成的真实经验检测世界模型生成的模拟经验的质量;
所述的质量检测器包括用于存储真实经验的词库real-dict,用于存储模拟经验的词库world-dict和用于保存词库real-dict与词库world-dict的交集主键在两个词库中的频率值的词库same-dict。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南湖实验室,未经南湖实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532470.2/1.html,转载请声明来源钻瓜专利网。