[发明专利]基于对话系统的在线学习方法及装置有效

申请号：	201710041542.7	申请日：	2017-01-20
公开（公告）号：	CN106844627B	公开（公告）日：	2020-06-19
发明（设计）人：	简仁贤;马永宁	申请（专利权）人：	竹间智能科技（上海）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06N3/04;G06N3/08
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	任媛
地址：	200233 上海市浦东新区自由贸***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于对话系统在线学习方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于对话系统的在线学习方法及装置，其中，方法包括，获取用户输入的当前对话信息，以及获取前N轮的历史对话信息；根据当前对话信息，以及历史对话信息对预先构建的应答决策器进行更新；根据当前对话信息以及更新后的应答决策器，确定当前应答输出。本发明提供的基于对话系统的在线学习方法及装置，针对用户输入的对话信息，动态地对对话系统中的应答决策器进行更新，以适应不同用户的对话习惯，可以实现提高对话系统的对话灵活性。

技术领域

本发明涉及聊天机器人领域以及人工智能对话系统领域，尤其涉及一种基于对话系统的在线学习方法及装置。

背景技术

随着人工智能技术的不断发展，用于人机进行交流的对话系统也需要进行适应性地发展，以提升用户与对话系统进行交流时的交互体验，从而提高用户对对话系统的信任度。现有的对话系统，针对用户输入的对话信息，通常是直接从语料库中匹配出语句进行应答，这导致对于不同的用户输入的同样内容的对话信息，对话系统所做出的应答往往是一样的，也就是说，现有的对话系统不能够根据用户本身的不同而做出相应的调整，灵活性不高，不够智能。

发明内容

本发明要解决的技术问题是提供一种基于对话系统的在线学习方法及装置，针对用户输入的对话信息，动态地对对话系统中的应答决策器进行更新，以适应不同用户的对话习惯，可以实现提高对话系统的对话灵活性。

为解决上述技术问题，本发明提供的技术方案是：

一方面，本发明提供一种基于对话系统的在线学习方法，包括，

获取用户输入的当前对话信息，以及获取前N轮的历史对话信息；

根据当前对话信息，以及历史对话信息对预先构建的应答决策器进行更新；

根据当前对话信息以及更新后的应答决策器，确定当前应答输出。

进一步地，根据当前对话信息，以及历史对话信息对应答决策器进行更新，具体包括，

将当前对话信息输入预先构建的应答决策器，以生成第一回复R1，并将第一回复R1输入应答决策器以生成第二回复R2，依此，循环m次，以生成一个模拟对话段落R，其中，R＝{R1，R2，…,Ri…Rm}；

采用预先构建的奖励函数，分别对前N轮的历史对话信息和模拟对话段落进行评分，以分别获取历史评分和当前评分；

根据历史评分与当前评分的差值对应答决策器进行更新。

进一步地，奖励函数进行评分的计算规则为，采用A、B、C中的至少一种方式获取评分，其中，