[发明专利]一种基于语音和手势的多通道人机交互方法有效

申请号：	201110278390.5	申请日：	2011-09-19
公开（公告）号：	CN102339129A	公开（公告）日：	2012-02-01
发明（设计）人：	赵沁平;陈小武;蒋恺;许楠	申请（专利权）人：	北京航空航天大学
主分类号：	G06F3/01	分类号：	G06F3/01
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙) 11369	代理人：	史霞
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语音手势通道人机交互方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人机交互领域，尤其涉及一种基于语音和手势的多通道人机交互方法。

背景技术

多通道人机交互能够有效地扩大人与计算机之间信息交换的带宽，从而达到提高交互效率的目的；并可发挥人机之间彼此不同的认知潜力，降低用户的认知负荷。用户可以通过各种不同的交互通道以及它们之间的相互组合、协作来完成交互任务，这正好弥补了单一交互模式给用户带来的限制和负担。多通道人机交互中，指称归结定义为：求出多个通道输入信息的共同所指对象。其中，指称主要包括自然语言中的代词、定位副词、指示词和限定名词，例如“它”、“这儿”、“这个”、“那间房屋”等；指称对象是用户所指称的客观实体，例如三维空间中的模型等。在传统的单通道用户界面中，指称技术是单一的，并且通常是精确的，目标与目标之间的边界是清晰的。而在多通道用户界面中，指称技术是复合的并且通常是模糊的，边界是不清晰的。

目前多通道的研究已不局限于整合语音和传统鼠标键盘，基于语音和笔，语音和唇动，语音和三维手势的多通道系统得到了较大的关注。其中的典型代表包括基于Agent结构、支持语音和笔的多通道协作系统QuickSet，整合了“魔术棒”(一种新的六自由度设备)和语音的XWand系统等。W3C国际组织已经成立了“多通道交互”工作小组，开发W3C新的一类支持移动设备的多通道协议标准，包括多通道交互框架、多通道交互需求、多通道交互用例、可扩展多通道注释语言需求、数字墨水需求、可扩展多通道注释标记语言等。这些标准的制定反映了多通道技术已开始成熟。

关于多通道人机交互中指称归结问题的研究，Kehler运用认知科学和计算语言学的相关原理，研究并验证了多通道环境下指称与认知状态的对应关系，提出一种对认知状态编码并结合一组简单判断规则获取指称对象的方法，并在一个基于笔和语音的二维旅游地图应用中达到了很高的准确率。Kehler方法在处理单一指称结合精确指点手势时很有效，但这些规则假设所有对象都能被确定地选中，不能支持模糊的手势。

哥伦比亚大学、俄勒冈科学和健康大学等合作研究增强现实与虚拟现实环境下三维多通道交互，提出用感知形状的方法解决指称归结的问题。感知形状是由用户控制的几何体，用户通过它与增强现实或虚拟现实环境交互，在交互过程中感知形状产生各种统计信息辅助目标选择。该方法主要解决了指称归结中指点模糊性问题，但并没有关注未指明信息的推断和多通道对齐。德国比勒费尔德大学的Pfeiffer等提出多通道指称归结应该注意指称类型、语句的复杂性、一致背景、不确定性等方面，并设计了一种面向沉浸式虚拟环境的指称归结引擎。该引擎是一个三层结构的专家系统：核心层、领域层、应用层。核心层是一个约束满足管理器；领域层提供对知识库的访问；应用层是外界程序与指称归结引擎的接口，负责将语音输入中的指称转化为对指称归结引擎的查询。该指称归结引擎将指称归结问题看作约束满足问题，主要关注从复杂的自然语言中提取有效的约束。但该方法对欠约束的情况以及指点模糊性还缺乏相应的处理。

发明内容

本发明设计开发了一种基于语音和手势的多通道人机交互方法。

本发明的一个目的在于，解决基于语音和手势的多通道人机交互方法中的指点模糊性问题。虚拟环境中进行三维交互时，手势(从识别指点开始到指点结束)不仅表达了空间信息，也承载了时间方面的信息。对象在指点区域内停留时间越长，可以认为被选中的可能性越大。因此，在进行手势指称对象约束信息的分析时，不仅要获取距离统计量，而且要获取时间统计量，从而降低三维交互中的指点模糊性。并且，在对指称对象进行确定的过程中，是将虚拟环境中的模型对象划分为四类，并将指称对象与某一类型模型对象进行对比，这种方法也有助于缩小指称对象的寻找范围，降低指点模糊性的影响。

本发明的另一个目的在于，解决基于语音和手势的多通道人机交互方法中的未指明信息推断的问题。虚拟环境中的模型对象被划分为四类，其中，聚焦对象为在上一次人机交互过程中所被确定的指称对象，也就是说，如果此次人机交互中语音输入的语句中出现了指示性代词“它”，则可认为此次人机交互的指称对象就是聚焦对象，从而解决了未指明信息推断的问题。

本发明的又一个目的在于，提供一种基于语音和手势的多通道人机交互方法。通过构建多通道分层整合模型，在多通道分层整合模型中建立四层：物理层、词法层、语法层和语义层，并最终将人机交互所需的命令信息及指称对象填充入任务槽，上述整合过程的目标以及整合成功与否的判据都是以人机交互的任务结构的完整性为基础，最终目的就是生成可提交系统执行的任务结构，保证人机交互的有效进行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110278390.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语音和手势的多通道人机交互方法有效

专利文献下载