[发明专利]一种端到端的多模态人机交互指令识别方法在审
申请号: | 201611155383.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228285A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 文鹏程;程岳;张磊;李亚晖;白林亭;谢建春 | 申请(专利权)人: | 中国航空工业集团公司西安航空计算技术研究所 |
主分类号: | G06F9/451 | 分类号: | G06F9/451;G06F3/01;G06F17/30;G06N3/04;G06K9/62 |
代理公司: | 中国航空专利中心 11008 | 代理人: | 杜永保 |
地址: | 710000 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态人机交互 指令识别 多通道人机交互 指令 人工神经网络 多模态交互 准确度 交互信息 交互指令 融合 模态 隐含 输出 | ||
本发明属于多通道人机交互技术领域,特别是涉及一种端到端的多模态人机交互指令识别方法。本发明提出一种端到端的多模态交互指令识别方法,这种方法各个交互指令同时进入深度人工神经网络进行处理,直接输出最终的融合指令,使得各种模态隐含的交互信息深层次融合,从而提高多模态人机交互指令的识别准确度。
技术领域
本发明属于多通道人机交互技术领域,具体涉及一种端到端的多模态人机交互指令识别方法。
背景技术
随着无人机技术的不断发展,无人机地面站对自然人机交互的需求日趋旺盛。当前的无人机,通常携带多种传感器,具有一定的自主巡航、碰撞规避与路径选择的智能能力。不过,这种智能能力还处于较低的水平,智能无人机必须在场景明晰、规则明确的特定条件下才具有自主学习与决策能力。因此,在未来的无人机地面站中,人需要利用自然人机交互的手段对无人机下达高层次的控制命令,做到人机高效协同,才能保证无人机智能的完成自身任务。然而,在现有的交互指令识别方法中,仅仅使用一种人机交互语言与无人机等进行人机交互的单模态人机交互技术,或者多种人机交互语言先分别识别后再进行融合的多模态人机交互技术,因为存在单模态识别精度低、多模态内在关联信息损失严重等种种问题,它们难以给出准确的交互指令,甚至常常对无人机下达错误的交互指令,这在实际应用中是不可接受的。
发明内容
本发明的目的是:
解决现有人机交互单模态识别精度低、多模态内在关联信息损失严重的问题。
本发明的技术解决方案是:
由于深度神经网络具有非常复杂的网络层级和网络参数,能够同时把多种交互信息输入到网络中进行隐含的相互作用,在计算中,能够统一给出最终的融合结果,而不关心具体的融合过程,因此在端到端的系统设计中,具有明显的优势。
本发明的具体步骤如下:
第一步,将传感器获取的语音向量xs、触控向量xt与手势向量xg数据,输入至深度神经网络的前端数据缓冲区中,以便能同步送入深度神经网络进行处理。
第二步,预处理深度神经网络根据语音、触控与手势信号的不同特性,选择相应的网络类型,对它们进行不同的预处理。
语音信号采用如图2所示的双向长短时记忆神经网络(LSTM)进行处理,经过多层计算得到的全连接层信号为ys。
触控信号与手势信号都具有图像的特征,采用卷积神经网络(CNN)进行处理。如图3所示,触控信号与手势信号首先要进行多次的卷积与池化,并完成数据的降维。同时,在数据输入到下一层之前,还必须进行一定的非线性映射,具体的映射策略如下:
对输入信号m,仅当m>0的时候才输出原值,它保证了输入信号的多变性。
经过CNN输出的全连接层信号为yg与yt。
第三步,对ys、yg与yt进行连接后,得到全连接特征信号:
y=[ys,yt,yg]T
该特征信号隐含了多模态交互的大量信息。
计算输出待分类特征的特征向量p。
第四步,对特征向量进行softmax回归。定义回归参数向量θ,有k个交互信号,输入样本为p,输出样本为h(p),则最终输出的系统函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司西安航空计算技术研究所,未经中国航空工业集团公司西安航空计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155383.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种窗口显示方法及终端
- 下一篇:绘制元素跟踪方法及装置