[发明专利]语音端点检测方法、装置、计算机设备和存储介质有效
申请号: | 201810048223.3 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108198547B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 黄石磊;刘轶;王昕 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L19/038;G10L21/0216;G10L25/87 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 518051 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音端点检测方法,包括:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征;
提取所述带噪语音信号的带噪语音幅度谱、噪声幅度谱和语音幅度谱;
根据所述带噪语音幅度谱、所述噪声幅度谱和所述语音幅度谱生成所述带噪语音信号对应的频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
2.根据权利要求1所述的方法,其特征在于,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱;
对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
3.根据权利要求1所述的方法,其特征在于,所述提取所述带噪语音信号的带噪语音幅度谱、噪声幅度谱和语音幅度谱,包括:
将所述带噪语音信号转换为带噪语音频谱,根据所述带噪语音频谱计算带噪语音幅度谱;
根据所述带噪语音幅度谱对所述带噪语音频谱进行动态噪声估计,得到噪声幅度谱;
根据所述带噪语音幅度谱和所述噪声幅度谱估计纯净语音信号的语音幅度谱。
4.根据权利要求1所述的方法,其特征在于,所述对所述声学特征和频谱特征进行转换包括:
提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;
通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;
对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
5.根据权利要求1所述的方法,其特征在于,所述获取分类器的步骤之前还包括:
获取添加语音类别标签的带噪语音数据,通过对所述带噪语音数据进行训练,得到初始分类器;
获取第一验证集,所述第一验证集中包括多个第一语音数据;
将多个第一语音数据输入至所述初始分类器,得到所述多个第一语音数据对应的类别概率;
对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;
利用所述添加类别标签的验证集和所述添加语音类别标签的带噪语音数据进行训练,得到验证分类器;
获取第二验证集,所述第二验证集中包括多个第二语音数据;
将多个第二语音数据输入至验证分类器,得到所述多个第二语音数据对应的类别概率;
当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
6.根据权利要求1至5任一项所述的方法,其特征在于,利用所述分类器对所述声学特征向量和频谱特征向量进行分类的步骤包括:
将所述声学特征向量和频谱特征向量作为分类器的输入,得到所述声学特征向量和频谱特征向量对应的决策值;
当所述决策值为第一阈值时,对所述声学特征向量或频谱特征向量添加语音标签;
当所述决策值为第二阈值时,对所述声学特征向量或频谱特征向量添加非语音标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810048223.3/1.html,转载请声明来源钻瓜专利网。