[发明专利]利用深度信息识别语音的方法、系统及计算机可读介质在审

专利信息
申请号: 201980052681.7 申请日: 2019-08-27
公开(公告)号: CN112639964A 公开(公告)日: 2021-04-09
发明(设计)人: 林袁;何朝文 申请(专利权)人: OPPO广东移动通信有限公司
主分类号: G10L15/25 分类号: G10L15/25
代理公司: 深圳市智圈知识产权代理事务所(普通合伙) 44351 代理人: 周献
地址: 523860 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 深度 信息 识别 语音 方法 系统 计算机 可读 介质
【说明书】:

在一种实施方式中,方法包括:接收多个第一图像,所述多个第一图像包括说出话语的说话人的至少一个口相关部,每个第一图像具有深度信息;利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及通过人机界面(HMI)输出模型利用所述词语序列来输出响应。

相关申请的交叉引用

本申请要求于2018年9月4日递交的名称为“METHOD,SYSTEM,AND COMPUTER-READABLE MEDIUM FOR RECOGNIZING SPEECHUSING DEPTH INFORMATION”的美国申请NO.62/726,595的优先权。

本公开内容的背景

1.技术领域

本公开内容涉及语音识别领域,尤其涉及利用深度信息识别言语的方法、系统及计算机可读介质。

2.背景技术

自动语音识别可以用于识别人类的话语,生成可以用于使智能设备和机器人为各种应用程序执行动作的输出。唇读是一种利用视觉信息来识别人类的话语的语音识别。但唇读难以准确地生成输出。

发明内容

本公开内容的目的是提出用于利用深度信息识别语音的方法、系统及计算机可读介质。

在本公开内容的第一方面中,一种方法包括:

至少一个处理器接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;

所述至少一个处理器利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;

所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及

一个人机界面(HMI)输出模型利用所述词语序列来输出响应。根据结合本公开内容第一方面的一个实施方式,该方法还包括:

当所述说话者正在说出所述话语时,一个相机生成照射所述说话者的舌头的红外光;以及

所述相述摄取所述多个第一图像。

根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器接收所述多个第一图像的步骤包括:所述至少一个处理器接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息;所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括:所述至少一个处理器利用所述多个图像集提取所述多个视位特征,其中,所述多个图像包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器利用所述多个第一图像集提取所述多个视位特征的步骤包括:

所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入(embedding),其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及

所述至少一个处理器追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。

根据结合本公开内容第一方面的一个实施方式,所述RNN包括双向长短期记忆(LSTM)网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201980052681.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top