[发明专利]一种基于语音和手势的多通道人机交互方法有效

专利信息
申请号: 201110278390.5 申请日: 2011-09-19
公开(公告)号: CN102339129A 公开(公告)日: 2012-02-01
发明(设计)人: 赵沁平;陈小武;蒋恺;许楠 申请(专利权)人: 北京航空航天大学
主分类号: G06F3/01 分类号: G06F3/01
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人: 史霞
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语音 手势 通道 人机交互 方法
【说明书】:

技术领域

发明涉及人机交互领域,尤其涉及一种基于语音和手势的多通道人机交互方法。

背景技术

多通道人机交互能够有效地扩大人与计算机之间信息交换的带宽,从而达到提高交互效率的目的;并可发挥人机之间彼此不同的认知潜力,降低用户的认知负荷。用户可以通过各种不同的交互通道以及它们之间的相互组合、协作来完成交互任务,这正好弥补了单一交互模式给用户带来的限制和负担。多通道人机交互中,指称归结定义为:求出多个通道输入信息的共同所指对象。其中,指称主要包括自然语言中的代词、定位副词、指示词和限定名词,例如“它”、“这儿”、“这个”、“那间房屋”等;指称对象是用户所指称的客观实体,例如三维空间中的模型等。在传统的单通道用户界面中,指称技术是单一的,并且通常是精确的,目标与目标之间的边界是清晰的。而在多通道用户界面中,指称技术是复合的并且通常是模糊的,边界是不清晰的。

目前多通道的研究已不局限于整合语音和传统鼠标键盘,基于语音和笔,语音和唇动,语音和三维手势的多通道系统得到了较大的关注。其中的典型代表包括基于Agent结构、支持语音和笔的多通道协作系统QuickSet,整合了“魔术棒”(一种新的六自由度设备)和语音的XWand系统等。W3C国际组织已经成立了“多通道交互”工作小组,开发W3C新的一类支持移动设备的多通道协议标准,包括多通道交互框架、多通道交互需求、多通道交互用例、可扩展多通道注释语言需求、数字墨水需求、可扩展多通道注释标记语言等。这些标准的制定反映了多通道技术已开始成熟。

关于多通道人机交互中指称归结问题的研究,Kehler运用认知科学和计算语言学的相关原理,研究并验证了多通道环境下指称与认知状态的对应关系,提出一种对认知状态编码并结合一组简单判断规则获取指称对象的方法,并在一个基于笔和语音的二维旅游地图应用中达到了很高的准确率。Kehler方法在处理单一指称结合精确指点手势时很有效,但这些规则假设所有对象都能被确定地选中,不能支持模糊的手势。

哥伦比亚大学、俄勒冈科学和健康大学等合作研究增强现实与虚拟现实环境下三维多通道交互,提出用感知形状的方法解决指称归结的问题。感知形状是由用户控制的几何体,用户通过它与增强现实或虚拟现实环境交互,在交互过程中感知形状产生各种统计信息辅助目标选择。该方法主要解决了指称归结中指点模糊性问题,但并没有关注未指明信息的推断和多通道对齐。德国比勒费尔德大学的Pfeiffer等提出多通道指称归结应该注意指称类型、语句的复杂性、一致背景、不确定性等方面,并设计了一种面向沉浸式虚拟环境的指称归结引擎。该引擎是一个三层结构的专家系统:核心层、领域层、应用层。核心层是一个约束满足管理器;领域层提供对知识库的访问;应用层是外界程序与指称归结引擎的接口,负责将语音输入中的指称转化为对指称归结引擎的查询。该指称归结引擎将指称归结问题看作约束满足问题,主要关注从复杂的自然语言中提取有效的约束。但该方法对欠约束的情况以及指点模糊性还缺乏相应的处理。

发明内容

本发明设计开发了一种基于语音和手势的多通道人机交互方法。

本发明的一个目的在于,解决基于语音和手势的多通道人机交互方法中的指点模糊性问题。虚拟环境中进行三维交互时,手势(从识别指点开始到指点结束)不仅表达了空间信息,也承载了时间方面的信息。对象在指点区域内停留时间越长,可以认为被选中的可能性越大。因此,在进行手势指称对象约束信息的分析时,不仅要获取距离统计量,而且要获取时间统计量,从而降低三维交互中的指点模糊性。并且,在对指称对象进行确定的过程中,是将虚拟环境中的模型对象划分为四类,并将指称对象与某一类型模型对象进行对比,这种方法也有助于缩小指称对象的寻找范围,降低指点模糊性的影响。

本发明的另一个目的在于,解决基于语音和手势的多通道人机交互方法中的未指明信息推断的问题。虚拟环境中的模型对象被划分为四类,其中,聚焦对象为在上一次人机交互过程中所被确定的指称对象,也就是说,如果此次人机交互中语音输入的语句中出现了指示性代词“它”,则可认为此次人机交互的指称对象就是聚焦对象,从而解决了未指明信息推断的问题。

本发明的又一个目的在于,提供一种基于语音和手势的多通道人机交互方法。通过构建多通道分层整合模型,在多通道分层整合模型中建立四层:物理层、词法层、语法层和语义层,并最终将人机交互所需的命令信息及指称对象填充入任务槽,上述整合过程的目标以及整合成功与否的判据都是以人机交互的任务结构的完整性为基础,最终目的就是生成可提交系统执行的任务结构,保证人机交互的有效进行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110278390.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top