[发明专利]一种端到端的多模态人机交互指令识别方法在审
申请号: | 201611155383.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228285A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 文鹏程;程岳;张磊;李亚晖;白林亭;谢建春 | 申请(专利权)人: | 中国航空工业集团公司西安航空计算技术研究所 |
主分类号: | G06F9/451 | 分类号: | G06F9/451;G06F3/01;G06F17/30;G06N3/04;G06K9/62 |
代理公司: | 中国航空专利中心 11008 | 代理人: | 杜永保 |
地址: | 710000 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于多通道人机交互技术领域,特别是涉及一种端到端的多模态人机交互指令识别方法。本发明提出一种端到端的多模态交互指令识别方法,这种方法各个交互指令同时进入深度人工神经网络进行处理,直接输出最终的融合指令,使得各种模态隐含的交互信息深层次融合,从而提高多模态人机交互指令的识别准确度。 | ||
搜索关键词: | 多模态人机交互 指令识别 多通道人机交互 指令 人工神经网络 多模态交互 准确度 交互信息 交互指令 融合 模态 隐含 输出 | ||
【主权项】:
1.一种端到端的多模态人机交互指令识别方法,其特征是包含以下步骤:第一步,将传感器获取的语音向量xs、触控向量xt与手势向量xg数据,输入至深度神经网络的前端数据缓冲区中,以便能同步送入深度神经网络进行处理;第二步,预处理深度神经网络根据语音、触控与手势信号的不同特性,选择相应的网络类型,对它们进行不同的预处理;语音信号采用双向长短时记忆神经网络(LSTM)进行处理,经过多层计算得到的全连接层信号为ys;触控信号与手势信号都具有图像的特征,采用卷积神经网络(CNN)进行处理,触控信号与手势信号首先要进行多次的卷积与池化,并完成数据的降维;同时,在数据输入到下一层之前,还必须进行一定的非线性映射,具体的映射策略如下:
对输入信号m,仅当m>0的时候才输出原值,它保证了输入信号的多变性;经过CNN输出的全连接层信号为yg与yt;第三步,对ys、yg与yt进行连接后,得到全连接特征信号:y=[ys,yt,yg]T该特征信号隐含了多模态交互的大量信息;计算输出待分类特征的特征向量p;第四步,对特征向量进行softmax回归;定义回归参数向量θ,有k个交互信号,输入样本为p,输出样本为h(p),则最终输出的系统函数为:
其中:p(i)的每一个元素,代表k个交互信号中每一个信号发生的概率;第五步,对hθ(p(i))进行最大值检测以及次大值检测,得到的最大值为v1,次大值为v2;当v1与v2的比率大于预先设定的阈值的时候,直接给出最大值所对应的交互指令;当v1与v2的比率小于或等于阈值的时候,给出提示信号,并输出最大值与次大值对应的交互指令,即以模糊方式输出指令信号。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司西安航空计算技术研究所,未经中国航空工业集团公司西安航空计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611155383.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种窗口显示方法及终端
- 下一篇:绘制元素跟踪方法及装置