[发明专利]一种虚拟现实语言交互系统与方法有效
申请号: | 201611193005.6 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108227903B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 孙其民;李炜 | 申请(专利权)人: | 深圳市掌网科技股份有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06K9/00 |
代理公司: | 44217 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频信号 交互系统 采集 虚拟现实语言 动作指令 实时采集 图像识别 虚拟角色 用户图像 语音识别 语音 筛选 采集音频信号 图像采集模块 语音采集模块 周期性采集 语音命令 声源 头盔 | ||
一种虚拟现实语言交互系统与方法,系统包括:语音采集模块,用于周期性的采集音频信号;图像采集模块,用于实时采集用户图像;唇动识别模块,用于基于采集的图像识别出唇动特征;VR交互系统,VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。本发明通过实时采集用户图像、周期性采集音频信号,基于采集的图像识别出唇动特征,最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令,克服了VR头盔中语音输入的局限性,将语音输入与唇动特征相结合,可以准确识别重要声源的语音命令。
技术领域
本发明涉及虚拟现实自然交互技术领域,尤其涉及一种虚拟现实语言交互系统与方法。
背景技术
语言是人们自然交流中最有效的手段,在基于计算机的人机交互技术研究中语言交互已经达到实用状态,但是在很多场合语音输入具有很大的局限性,使用时不可避免的会遇到使用者语音与周围环境噪声、其他人员语音等噪音的混叠。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种虚拟现实语言交互系统与方法。
本发明解决其技术问题所采用的技术方案是:构造一种虚拟现实语言交互系统,包括:
语音采集模块,用于周期性的采集音频信号;
图像采集模块,用于实时采集用户图像;
唇动识别模块,用于基于采集的图像识别出唇动特征;
VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。
在本发明所述的虚拟现实语言交互系统中,所述唇动识别模块包括:
预处理单元,用于针对多帧连续的图像,确定图像的有效区域;
唇部区域检测单元,用于从有效区域中分离出唇部区域;
唇动特征提取单元,用于从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统包括:
启动单元,用于在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并触发语音识别单元工作,否则不作处理;
语音识别单元,用于对采集到的音频信号进行语音识别。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统还包括去噪单元,用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统还包括:
有效时域确定单元,用于在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域,并通知语音识别单元对有效时域内的音频信号进行处理。
在本发明所述的虚拟现实语言交互系统中,所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括语义分析单元,用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
在本发明所述的虚拟现实语言交互系统中,
所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市掌网科技股份有限公司,未经深圳市掌网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611193005.6/2.html,转载请声明来源钻瓜专利网。