[发明专利]语音交互方法、设备和系统在审

申请号：	202010690864.6	申请日：	2020-07-17
公开（公告）号：	CN113948076A	公开（公告）日：	2022-01-18
发明（设计）人：	吴纲律;王加芳;王全占;古鉴;聂再清	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/06;G10L15/18;G10L15/25
代理公司：	北京展翼知识产权代理事务所(特殊普通合伙) 11452	代理人：	张阳
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音交互方法设备系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音交互方法，包括：

开启摄像头获取图像信息，同时开启麦克风获取声音信息；

将获取的所述图像信息和所述声音信息输入交互判定模型；以及

基于所述交互判定模型的输出，使用麦克风获取用于语音交互的声音信息。

2.如权利要求1所述的方法，还包括：

对获取的用于语音交互的声音信息进行语音识别；以及

基于所述语音识别的结果，输出语音交互的反馈。

3.如权利要求1所述的方法，其中，所述交互判定模型包括：

有监督学习的深度神经网络模型。

4.如权利要求1所述的方法，其中，训练所述深度神经网络模型的正标签包括说话的人的图像，负标签包括不说话的人的图像。

5.如权利要求1所述的方法，还包括：

在使用麦克风获取用于语音交互的声音信息的同时，使用摄像头继续获取图像信息。

6.如权利要求5所述的方法，其中，基于所述交互判定模型的输出，使用麦克风获取用于语音交互的声音信息包括：

基于所述交互判定模型的输出，确定使用麦克风录制用于语音交互的声音信息的录制开始时间和/或录制结束时间。

7.如权利要求6所述的方法，其中，基于所述交互判定模型的输出，确定使用麦克风录制用于语音交互的声音信息的录制开始时间和/或录制结束时间包括：

所述交互判定模型基于当前的所述图像信息和所述声音信息输入，在输出满足录制开始时间阈值时开始录制和/或在输出满足录制结束阈值时束录制。

8.如权利要求7所述的方法，其中，

将获取的所述声音信息输入意图识别模型，并基于所述意图识别模型的输出调整所述录制开始时间阈值和/或录制结束阈值的取值。

9.如权利要求8所述的方法，其中，调整所述录制开始阈值和/或所述录制结束阈值的取值包括：

动态阈值模型获取所述意图识别模型的输出，动态调整所述录制开始阈值和/或所述录制结束阈值的取值。

10.如权利要求9所述的方法，其中，所述动态阈值模型是强化学习模型，所述强化学习模型采用图像信息、声音信息和所述说话意图的识别结果作为输入，并基于用于语音交互获取的声音信息的正确与否，实时调整作为行为的所述录制开始阈值和/或所述录制结束阈值的取值。

11.如权利要求1所述的方法，还包括：

对所述图像信息进行至少部分的模糊化处理。

12.一种语音交互方法，包括：

判定有人接近并获取图像信息；

将所述图像信息输入交互判定模型；

基于所述交互判定模型的输出，获取声音信息用于语音交互。

13.如权利要求12所述的方法，其中，判定有人接近包括：

开启摄像头获取图像信息，并基于关键点提取技术识别出人脸。

14.如权利要求12所述的方法，还包括：

在识别出人脸后，点亮屏幕并显示交互内容；以及

在显示交互内容时，获取用于输入所述交互判定模型的图像信息。

15.如权利要求12所述的方法，其中，

使用说话的人的图像作为正标签训练所述交互判定模型；和/或

使用望向拍摄方向的人的图像作为正标签训练所述交互判定模型。

16.一种语音交互方法，包括：

获取图像信息；

将所述图像信息输入交互判定模型；

基于所述交互判定模型的输出，获取声音信息用于语音交互。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010690864.6/1.html，转载请声明来源钻瓜专利网。

上一篇：调解预案的提供方法、训练方法、相关装置及存储介质
下一篇：一种特高压直流阀组和故障阀组隔离方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音交互方法、设备和系统在审

专利文献下载