[发明专利]一种语音信号识别方法和装置在审
申请号: | 201711241113.0 | 申请日: | 2017-11-30 |
公开(公告)号: | CN109859749A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 刘勇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/22 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声源 连续语音信号 语音激活检测 指向性 标志信号 语音信号识别 方法和装置 所述空间 音频信号 空间音频 申请 | ||
1.一种语音信号识别方法,其特征在于,包括:
获取指定空间内的空间音频信号;
根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;
针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。
2.根据权利要求1所述的方法,其特征在于,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:
根据所述多路原始音频信号,估计信号到达方向;
根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;
对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:
确定所述多路原始音频信号中两两信号之间的时延差;
根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;
对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。
4.根据权利要求1所述的方法,其特征在于,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:
确定每一帧连续语音信号对应的指向性标志信号;
逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;
根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;
将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。
5.根据权利要求4所述的方法,其特征在于,在根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号之后,还包括:
确定非语音片段的时长,所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段;
将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号,设置为语音信号。
6.根据权利要求4所述的方法,其特征在于,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:
若对当前帧的连续语音信号的判断结果为语音信号,并且,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。
7.根据权利要求4所述的方法,其特征在于,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:
若对当前帧的连续语音信号的判断结果为语音信号,或,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。
8.根据权利要求4所述的方法,其特征在于,所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括:
将所述连续语音信号输入预置的神经网络模型,逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711241113.0/1.html,转载请声明来源钻瓜专利网。