[发明专利]基于说话者识别的语音识别方法和装置有效
申请号: | 201780052734.6 | 申请日: | 2017-08-24 |
公开(公告)号: | CN109643549B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 曹根硕;安桐薰;朴致衍;韩英浩;李在原 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L17/00;G06F3/16 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张婧 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 说话 识别 语音 方法 装置 | ||
1.一种语音识别方法,所述方法包括:
激活用于接收第一音频信号的会话;
在维持所述会话的同时对从第一音频信号检测到的第一语音信号执行第一语音识别;
基于从第一语音信号生成的说话者信息确定第一语音信号的说话者是否是注册的说话者;
基于所述确定第一语音信号的说话者是否是注册的说话者的结果来确定是否维持所述会话;
输出第一语音识别的结果;
在维持所述会话的同时接收第二音频信号;
在维持所述会话的同时对从第二音频信号检测到的第二语音信号执行第二语音识别;
获得从第一语音信号中提取的第一文本的含义与从第二语音信号中提取的第二文本的含义之间的相关性;以及
基于所述相关性,输出第二语音识别的结果。
2.如权利要求1所述的方法,其中,所述确定是否维持所述会话包括:
当第一语音信号的说话者是注册的说话者时维持所述会话;以及
当第一语音信号的说话者不是注册的说话者时结束所述会话。
3.如权利要求1所述的方法,
其中,激活所述会话包括将所述会话设置为在所述会话维护时段期间维持,然后在所述会话维护时段之后结束,以及
其中,所述确定是否维持所述会话包括:当第一语音信号的说话者是注册的说话者时,重置要在预设的延长时段期间维持的所述会话,然后在所述预设的延长时段之后结束。
4.如权利要求1所述的方法,其中,所述执行第一语音识别包括:
从第一语音信号中提取用于鲁棒语音识别的语音识别特征向量,以及用于鲁棒说话者识别的说话者识别特征向量;
通过对所述语音识别特征向量执行第一语音识别来生成第一语音识别的结果;以及
通过使用所述说话者识别特征向量生成说话者信息。
5.如权利要求4所述的方法,
其中,所述通过对语音识别特征向量执行第一语音识别来生成第一语音识别的结果是基于声学模型或语言模型中的至少一个,以及
其中,所述说话者信息的生成包括:
基于所述声学模型或所述语音识别特征向量中的至少一个提取状态后验;以及
通过使用所述状态后验和所述说话者识别特征向量来生成说话者信息。
6.如权利要求1所述的方法,其中,所述执行第一语音识别包括:
将实时输入的第一音频信号分段为每个具有预设长度的帧单元;
通过处理分段的第一音频信号,检测包括第一帧的帧单元中的语音信号;
在第一语音信号的第一帧上执行第一语音识别;
通过使用关于第一帧的状态后验来生成第一帧的说话者信息,其中,在对所述第一帧执行第一语音识别的同时提取状态后验;
在第一语音信号的帧单元中的每一个上重复第一语音识别的操作,其中,从实时输入的第一音频信号中顺序检测帧单元;以及
生成说话者信息。
7.如权利要求1所述的方法,其中,所述确定第一语音信号的说话者是否是所述注册的说话者包括:
计算说话者信息和预先存储的关于注册的说话者的已注册说话者信息之间的相似性;以及
基于将相似性与预设的阈值进行比较的结果,确定第一语音信号的说话者是否是注册的说话者。
8.如权利要求1所述的方法,其中,所述输出结果包括:
对在所述会话期间检测到的先前语音信号执行语音识别的结果和对第一语音信号执行第一语音识别的结果执行自然语言处理;
基于所述自然语言处理确定第一语音信号是否由所述说话者发出用于语音识别;以及
基于所述确定说话者发出第一语音信号用于语音识别的结果,输出第一语音识别的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780052734.6/1.html,转载请声明来源钻瓜专利网。