[发明专利]语音交互方法、设备和系统在审
| 申请号: | 202010690864.6 | 申请日: | 2020-07-17 |
| 公开(公告)号: | CN113948076A | 公开(公告)日: | 2022-01-18 |
| 发明(设计)人: | 吴纲律;王加芳;王全占;古鉴;聂再清 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L15/18;G10L15/25 |
| 代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 张阳 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 交互 方法 设备 系统 | ||
1.一种语音交互方法,包括:
开启摄像头获取图像信息,同时开启麦克风获取声音信息;
将获取的所述图像信息和所述声音信息输入交互判定模型;以及
基于所述交互判定模型的输出,使用麦克风获取用于语音交互的声音信息。
2.如权利要求1所述的方法,还包括:
对获取的用于语音交互的声音信息进行语音识别;以及
基于所述语音识别的结果,输出语音交互的反馈。
3.如权利要求1所述的方法,其中,所述交互判定模型包括:
有监督学习的深度神经网络模型。
4.如权利要求1所述的方法,其中,训练所述深度神经网络模型的正标签包括说话的人的图像,负标签包括不说话的人的图像。
5.如权利要求1所述的方法,还包括:
在使用麦克风获取用于语音交互的声音信息的同时,使用摄像头继续获取图像信息。
6.如权利要求5所述的方法,其中,基于所述交互判定模型的输出,使用麦克风获取用于语音交互的声音信息包括:
基于所述交互判定模型的输出,确定使用麦克风录制用于语音交互的声音信息的录制开始时间和/或录制结束时间。
7.如权利要求6所述的方法,其中,基于所述交互判定模型的输出,确定使用麦克风录制用于语音交互的声音信息的录制开始时间和/或录制结束时间包括:
所述交互判定模型基于当前的所述图像信息和所述声音信息输入,在输出满足录制开始时间阈值时开始录制和/或在输出满足录制结束阈值时束录制。
8.如权利要求7所述的方法,其中,
将获取的所述声音信息输入意图识别模型,并基于所述意图识别模型的输出调整所述录制开始时间阈值和/或录制结束阈值的取值。
9.如权利要求8所述的方法,其中,调整所述录制开始阈值和/或所述录制结束阈值的取值包括:
动态阈值模型获取所述意图识别模型的输出,动态调整所述录制开始阈值和/或所述录制结束阈值的取值。
10.如权利要求9所述的方法,其中,所述动态阈值模型是强化学习模型,所述强化学习模型采用图像信息、声音信息和所述说话意图的识别结果作为输入,并基于用于语音交互获取的声音信息的正确与否,实时调整作为行为的所述录制开始阈值和/或所述录制结束阈值的取值。
11.如权利要求1所述的方法,还包括:
对所述图像信息进行至少部分的模糊化处理。
12.一种语音交互方法,包括:
判定有人接近并获取图像信息;
将所述图像信息输入交互判定模型;
基于所述交互判定模型的输出,获取声音信息用于语音交互。
13.如权利要求12所述的方法,其中,判定有人接近包括:
开启摄像头获取图像信息,并基于关键点提取技术识别出人脸。
14.如权利要求12所述的方法,还包括:
在识别出人脸后,点亮屏幕并显示交互内容;以及
在显示交互内容时,获取用于输入所述交互判定模型的图像信息。
15.如权利要求12所述的方法,其中,
使用说话的人的图像作为正标签训练所述交互判定模型;和/或
使用望向拍摄方向的人的图像作为正标签训练所述交互判定模型。
16.一种语音交互方法,包括:
获取图像信息;
将所述图像信息输入交互判定模型;
基于所述交互判定模型的输出,获取声音信息用于语音交互。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010690864.6/1.html,转载请声明来源钻瓜专利网。





