[发明专利]一种虚拟现实语言交互系统与方法有效
申请号: | 201611193005.6 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108227903B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 孙其民;李炜 | 申请(专利权)人: | 深圳市掌网科技股份有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06K9/00 |
代理公司: | 44217 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频信号 交互系统 采集 虚拟现实语言 动作指令 实时采集 图像识别 虚拟角色 用户图像 语音识别 语音 筛选 采集音频信号 图像采集模块 语音采集模块 周期性采集 语音命令 声源 头盔 | ||
1.一种虚拟现实语言交互系统,其特征在于,包括:
语音采集模块,用于周期性的采集音频信号;
图像采集模块,用于实时采集用户图像;
唇动识别模块,用于基于采集的图像识别出唇动特征;
VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令;
其中,所述VR交互系统包括:
启动单元,用于在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并触发语音识别单元工作,否则不作处理;
语音识别单元,用于对采集到的音频信号进行语音识别;
去噪单元,用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别;
有效时域确定单元,用于在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域,并通知语音识别单元对有效时域内的音频信号进行处理。
2.根据权利要求1所述的虚拟现实语言交互系统,其特征在于,所述唇动识别模块包括:
预处理单元,用于针对多帧连续的图像,确定图像的有效区域;
唇部区域检测单元,用于从有效区域中分离出唇部区域;
唇动特征提取单元,用于从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征。
3.根据权利要求2所述的虚拟现实语言交互系统,其特征在于,所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括语义分析单元,用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
4.根据权利要求2所述的虚拟现实语言交互系统,其特征在于,
所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括匹配单元,用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
5.根据权利要求1所述的虚拟现实语言交互系统,其特征在于,所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块;或者,所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。
6.一种虚拟现实语言交互方法,其特征在于,包括:
S1、周期性的采集音频信号,实时采集用户图像;
S2、基于采集的图像识别出唇动特征;
S3、基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令;
其中,所述步骤S3包括:
S31、在采集到音频信号时,判断是否识别出唇动特征,如果是则判断音频信号有效并执行步骤S32,否则不作处理;
S32、在每个音频采集周期内,基于识别出的唇动特征,确定音频采集周期的有效时域;
S33、将音频信号中持续存在的低频声音作为环境噪音滤除;
S34、对音频信号的有效时域内的信号进行语音识别。
7.根据权利要求6所述的虚拟现实语言交互方法,其特征在于,
所述步骤S2包括:
S21、针对多帧连续的图像,确定图像的有效区域;
S22、从有效区域中分离出唇部区域;
S23、从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征;
S24、根据唇动特征识别唇语信息;
所述步骤S3还包括:
S35、对识别出的唇语信息、语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令;或者,将识别出的唇语信息与语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市掌网科技股份有限公司,未经深圳市掌网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611193005.6/1.html,转载请声明来源钻瓜专利网。