[发明专利]一种虚拟现实语言交互系统与方法有效

申请号：	201611193005.6	申请日：	2016-12-21
公开（公告）号：	CN108227903B	公开（公告）日：	2020-01-10
发明（设计）人：	孙其民;李炜	申请（专利权）人：	深圳市掌网科技股份有限公司
主分类号：	G06F3/01	分类号：	G06F3/01;G06K9/00
代理公司：	44217 深圳市顺天达专利商标代理有限公司	代理人：	郭伟刚
地址：	518000 广东省深圳市南山区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频信号交互系统采集虚拟现实语言动作指令实时采集图像识别虚拟角色用户图像语音识别语音筛选采集音频信号图像采集模块语音采集模块周期性采集语音命令声源头盔
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种虚拟现实语言交互系统，其特征在于，包括：

语音采集模块，用于周期性的采集音频信号；

图像采集模块，用于实时采集用户图像；

唇动识别模块，用于基于采集的图像识别出唇动特征；

VR交互系统，用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令；

其中，所述VR交互系统包括：

启动单元，用于在语音采集模块采集到音频信号时，判断唇动识别模块是否识别出唇动特征，如果是则判断音频信号有效并触发语音识别单元工作，否则不作处理；

语音识别单元，用于对采集到的音频信号进行语音识别；

去噪单元，用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别；

有效时域确定单元，用于在每个音频采集周期内，基于唇动识别模块识别出的唇动特征，确定音频采集周期的有效时域，并通知语音识别单元对有效时域内的音频信号进行处理。

2.根据权利要求1所述的虚拟现实语言交互系统，其特征在于，所述唇动识别模块包括：

预处理单元，用于针对多帧连续的图像，确定图像的有效区域；

唇部区域检测单元，用于从有效区域中分离出唇部区域；

唇动特征提取单元，用于从唇部区域提取出唇部轮廓，确定唇部轮廓的特征点，通过跟踪多帧连续的图像的特征点识别出唇动特征。

3.根据权利要求2所述的虚拟现实语言交互系统，其特征在于，所述唇动识别模块还包括唇语识别单元，用于根据唇动特征识别唇语信息；

所述VR交互系统包括还包括语义分析单元，用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析，并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。

4.根据权利要求2所述的虚拟现实语言交互系统，其特征在于，

所述唇动识别模块还包括唇语识别单元，用于根据唇动特征识别唇语信息；

所述VR交互系统包括还包括匹配单元，用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配，如果匹配度高于预设值，则将语音识别结果转化为虚拟角色的动作指令，否则不作处理。

5.根据权利要求1所述的虚拟现实语言交互系统，其特征在于，所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块；或者，所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。

6.一种虚拟现实语言交互方法，其特征在于，包括：

S1、周期性的采集音频信号，实时采集用户图像；

S2、基于采集的图像识别出唇动特征；

S3、基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令；

其中，所述步骤S3包括：

S31、在采集到音频信号时，判断是否识别出唇动特征，如果是则判断音频信号有效并执行步骤S32，否则不作处理；

S32、在每个音频采集周期内，基于识别出的唇动特征，确定音频采集周期的有效时域；

S33、将音频信号中持续存在的低频声音作为环境噪音滤除；

S34、对音频信号的有效时域内的信号进行语音识别。

7.根据权利要求6所述的虚拟现实语言交互方法，其特征在于，

所述步骤S2包括：

S21、针对多帧连续的图像，确定图像的有效区域；