[发明专利]利用深度信息识别语音的方法、系统及计算机可读介质在审
申请号: | 201980052681.7 | 申请日: | 2019-08-27 |
公开(公告)号: | CN112639964A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 林袁;何朝文 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G10L15/25 | 分类号: | G10L15/25 |
代理公司: | 深圳市智圈知识产权代理事务所(普通合伙) 44351 | 代理人: | 周献 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 深度 信息 识别 语音 方法 系统 计算机 可读 介质 | ||
在一种实施方式中,方法包括:接收多个第一图像,所述多个第一图像包括说出话语的说话人的至少一个口相关部,每个第一图像具有深度信息;利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及通过人机界面(HMI)输出模型利用所述词语序列来输出响应。
相关申请的交叉引用
本申请要求于2018年9月4日递交的名称为“METHOD,SYSTEM,AND COMPUTER-READABLE MEDIUM FOR RECOGNIZING SPEECHUSING DEPTH INFORMATION”的美国申请NO.62/726,595的优先权。
本公开内容的背景
1.技术领域
本公开内容涉及语音识别领域,尤其涉及利用深度信息识别言语的方法、系统及计算机可读介质。
2.背景技术
自动语音识别可以用于识别人类的话语,生成可以用于使智能设备和机器人为各种应用程序执行动作的输出。唇读是一种利用视觉信息来识别人类的话语的语音识别。但唇读难以准确地生成输出。
发明内容
本公开内容的目的是提出用于利用深度信息识别语音的方法、系统及计算机可读介质。
在本公开内容的第一方面中,一种方法包括:
至少一个处理器接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
所述至少一个处理器利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;
所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
一个人机界面(HMI)输出模型利用所述词语序列来输出响应。根据结合本公开内容第一方面的一个实施方式,该方法还包括:
当所述说话者正在说出所述话语时,一个相机生成照射所述说话者的舌头的红外光;以及
所述相述摄取所述多个第一图像。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器接收所述多个第一图像的步骤包括:所述至少一个处理器接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息;所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括:所述至少一个处理器利用所述多个图像集提取所述多个视位特征,其中,所述多个图像包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器利用所述多个第一图像集提取所述多个视位特征的步骤包括:
所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入(embedding),其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
所述至少一个处理器追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
根据结合本公开内容第一方面的一个实施方式,所述RNN包括双向长短期记忆(LSTM)网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980052681.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置