[发明专利]一种控制方法及装置在审
申请号: | 202010167783.8 | 申请日: | 2020-03-11 |
公开(公告)号: | CN113393834A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 张平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/25;G10L15/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王柳焜 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 控制 方法 装置 | ||
1.一种控制方法,应用于智能音箱,包括:
采集用于控制所述智能音箱的控制语音;
确定所述控制语音的发起人是否为免唤醒用户;
在所述发起人为免唤醒用户的情况下,基于所述控制语音控制所述智能音箱。
2.根据权利要求1所述的方法,所述确定所述控制语音的发起人是否为免唤醒用户,包括:
识别所述控制语音的声纹特征;
在所述声纹特征为免唤醒用户的声纹特征的情况下,确定所述发起人为免唤醒用户。
3.根据权利要求1所述的方法,所述确定所述控制语音的发起人是否为免唤醒用户,包括:
确定与所述智能音箱通信连接的免唤醒设备的位置;
根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向;
确定所述控制语音的来源方向;
在所述相对方向与所述来源方向相同的情况下,确定所述发起人为免唤醒用户。
4.根据权利要求1所述的方法,所述确定所述控制语音的发起人是否为免唤醒用户,包括:
确定所述控制语音的来源方向;
采集位于来源方向的包括所述发起人的图像;
识别所述图像中的发起人的面部特征;
在所述面部特征为免唤醒用户的面部特征的情况下,确定所述发起人为免唤醒用户。
5.根据权利要求3或4所述的方法,所述智能音箱包括至少两个语音采集设备;
所述采集用于控制所述智能音箱的控制语音,包括:
基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音;
所述确定所述控制语音的来源方向,包括:
确定至少两个语音采集设备分别采集到的控制语音的相位信息;
基于所述相位信息确定所述来源方向。
6.根据权利要求1所述的方法,所述确定所述控制语音的发起人是否为免唤醒用户,包括:
确定所述发起人相对于所述智能音箱的相对方向;
获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向;
在所述相对方向与所述历史方向之间的差异小于预设差异的情况下,确定所述发起人为免唤醒用户。
7.根据权利要求1所述的方法,所述基于所述控制语音控制所述智能音箱,包括:
对所述控制语音进行语音识别,得到所述控制语音对应的控制文本;
至少基于所述控制文本确定所述控制语音的控制意图;
确定所述控制意图所在的意图领域;
在所述意图领域为所述智能音箱支持的意图领域的情况下,基于所述控制意图控制所述智能音箱。
8.根据权利要求7所述的方法,所述至少基于所述控制文本确定所述控制语音的控制意图,包括:
将所述控制文本输入至意图预测模型中,得到所述意图预测模型输出的所述控制意图。
9.根据权利要求8所述的方法,其特征在于,训练所述意图预测模型的方式,包括:
获取样本数据集,所述样本数据集中包括有标注有样本控制意图的样本控制文本;
构建意图预测模型的网络结构;
使用所述样本数据集对意图预测模型中的网络参数进行训练,直至所述网络参数收敛,得到所述意图预测模型。
10.根据权利要求9所述的方法,其特征在于,所述意图预测模型网络结构至少包括:
分词层、编码层、双向的循环神经网络、聚合层以及全连接层;
所述分词层用于将控制文本分词,得到多个词汇;
所述编码层用于将多个词汇分别转换为特征向量;
所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充;
所述聚合层用于将特征补充完毕的多个特征向量聚合,得到聚合向量;
所述全连接层用于根据所述聚合向量预测控制意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167783.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具离合器的立卧双向主轴头
- 下一篇:臭氧水雾化气的制取方法、装置及应用