[发明专利]多模态聊天技术在审
申请号: | 201811327202.1 | 申请日: | 2018-11-08 |
公开(公告)号: | CN111159472A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 段楠;纪蕾;周明 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/783 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 杨娟;杨雪婷 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 聊天 技术 | ||
本文公开的多模态聊天技术,用于在聊天机器人与人类的交互中,采用多模态答复的方式对用户询问进行答复。通过采用多模态方式的答复,使得聊天机器人的表达方式和内容更加丰富。
背景技术
聊天机器人(chatbot)是一个用来模拟人类会话或聊天的应用程序或者计算机系统。随着语言处理技术的发展,聊天机器人已经广泛地应用到各种应用程序或者智能设备中,以提供人机间灵活的交流方式。现有的聊天机器人与人类的交互方式,主要是基于文字或者语音来进行交互,由于文字和语音的局限性,难以表达更加丰富的内容。
发明内容
提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本文公开的多模态聊天技术,用于在聊天机器人与人类的交互中,采用多模态答复的方式对用户询问进行答复。通过采用多模态方式的答复,使得聊天机器人的表达方式和内容更加丰富。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
图1为描述多模态答复系统的应用场景之一的示意框图;
图2为描述多模态答复系统的应用场景之二的示意框图;
图3为描述采用多模态答复方式的会话界面示意框图;
图4为描述多模态答复生成装置的示例之一的框图;
图5为描述多模态答复生成装置的示例之二的框图;
图6为描述多模态答复生成方法的说明性处理过程之一的流程示意图;
图7为描述多模态答复生成方法的说明性处理过程之二的流程示意图;
图8为描述多模态答复生成方法的说明性处理过程之三的流程示意图;
图9为描述示例性的具有可移动性的移动终端设备的结构框图;
图10为描述示例性的计算设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
概览
本发明实施例提出了一种让聊天机器人以多模态答复的方式与用户进行交互。这里所说的模态是指内容或者信息的表现形态,同一个内容可以以文本消息的形式表达,也可以音频的形式表达,还可以以视频的形式表达。常见的多模态数据的形式例如视频,视频中包含了动态图像、音频以及字幕这三种模态的内容表达形式。在聊天机器人收到一个用户查询后,可以选择一段与用户查询对应的视频来作为答复。需要说明的是,上述的多模态可以是视频以外的其他形式,例如,采用音频结合字幕的形式,动态图像、音频以、字幕以及弹幕的方式。
在本发明实施例中,可以事先获取一些多模态数据,针对每个多模态数据,将用户查询与该多模态数据中的各个单模态数据进行包含相似度匹配计算的单模态数据融合,生成单模态融合数据,然后,再将各个模态对应的单模态融合数据进行再次数据融合,生成多模态融合数据。在多模态融合数据中,包含了用户查询与多模态数据整体的相似度。在针对每个多模态数据进行上述的数据融合后,可以获得用户查询与各个多模态数据的相似度,然后,根据该相似度排序,选择出适合的多模态数据来生成答复。
下面将通过一些示例来进一步介绍一下本发明实施例的技术方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811327202.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种广告定向投放方法
- 下一篇:一种果蔬差压预冷系统