[发明专利]一种语音信号识别方法和装置在审
申请号: | 201711241113.0 | 申请日: | 2017-11-30 |
公开(公告)号: | CN109859749A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 刘勇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/22 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声源 连续语音信号 语音激活检测 指向性 标志信号 语音信号识别 方法和装置 所述空间 音频信号 空间音频 申请 | ||
本申请实施例提供了一种语音信号识别方法和装置,所述方法包括:获取指定空间内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。在本申请实施例中,由于声源方向的语音激活检测信号,由该声源方向的连续语音信号和指向性标志信号组合得到,使得语音激活检测信号具有指向性,从而可以减少其他声源方向的连续语音信号对该声源方向的语音激活检测信号的干扰。
技术领域
本申请涉及信号处理技术领域,特别是涉及一种语音信号识别方法和一种语音信号识别装置。
背景技术
在多人的语音交互场景中,通常采用语音激活检测VAD(Voice ActivityDetection)监听各个人的语音。例如,在会议中,可以通过语音激活检测监听各个发言人员的语音,然后对语音进行识别并记录,从而得到针对各个发言人员的会议记录。又例如,在汽车驾驶中,车载终端可以识别通过语音激活检测监听驾驶员的语音,然后识别驾驶员发出的语音,并根据驾驶员的语音执行用户所需要的操作。例如,唤醒车载终端,播放音乐,接听电话等。
但是,目前语音激活检测存在的主要问题时,无法在多人同时发言的情况下,准确监听各个人的语音。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音信号识别方法和相应的一种语音信号识别装置。
为了解决上述问题,本申请实施例公开了一种语音信号识别方法,包括:
获取指定空间内的空间音频信号;
根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;
针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。
优选的,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:
根据所述多路原始音频信号,估计信号到达方向;
根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;
对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。
优选的,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:
确定所述多路原始音频信号中两两信号之间的时延差;
根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;
对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。
优选的,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:
确定每一帧连续语音信号对应的指向性标志信号;
逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;
根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;
将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711241113.0/2.html,转载请声明来源钻瓜专利网。