[发明专利]一种基于多模态的人机交互方法及装置在审

申请号：	202210753297.3	申请日：	2022-06-29
公开（公告）号：	CN115062131A	公开（公告）日：	2022-09-16
发明（设计）人：	何锐颖;杨晓龙;张志强	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/338
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁;周良玉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态人机交互方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供了一种基于多模态的人机交互方法及装置。在终端具备多种模态信息收集能力的前提下，当用户与终端进行交互时，终端可以收集到用户输入的多模态信息，包括视频信息、语音信息、用户通过输入操作输入的语言文本和事件文本等，并将该多模态信息传输至服务器。服务器可以从多模态信息中提取用户指令和用户语言，并分别将用户指令输入指令处理器并得到第一输出内容，将用户语言输入自然语言处理器并得到第二输出内容。接着，服务器可以基于第一输出内容和第二输出内容的融合，确定针对用户的回应内容。

技术领域

本说明书一个或多个实施例涉及人机交互技术领域，尤其涉及一种基于多模态的人机交互方法及装置。

背景技术

随着科学技术的发展，以计算处理为基础的终端产品的智能化水平越来越高。终端产品逐渐具备了视频采集、语音采集以及触屏等多种信息采集方式，使用者可以通过对应的多种交互方式来操作终端产品。多种人机交互方式的发展，为用户提供了更多表达的方式，已经更便捷的生活方式。

因此，希望能有改进的方案，可以提高人机交互过程中的智能化水平。

发明内容

本说明书一个或多个实施例描述了一种基于多模态的人机交互方法及装置，以提高人机交互过程中的智能化水平。具体的技术方案如下。

第一方面，实施例提供了一种基于多模态的人机交互方法，包括：

获取用户通过终端输入的多模态信息；

从所述多模态信息中提取用户指令和用户语言；

通过指令处理器确定针对所述用户指令的第一输出内容；

通过自然语言处理器确定针对所述用户语言的第二输出内容；