[发明专利]一种基于深度神经网络的自动语音叠音检测方法有效
| 申请号: | 201510696366.1 | 申请日: | 2015-10-23 |
| 公开(公告)号: | CN106611604B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 颜永红;陈梦喆;潘接林;刘建 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
| 主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/30 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;李彪 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 神经网络 自动 语音 检测 方法 | ||
1.一种基于深度神经网络的自动语音叠音检测方法,包括:
步骤1)、训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;
步骤2)、采用步骤1)训练得到的深度神经网络模型对语音做自动叠音检测;
所述步骤1)进一步包括:
步骤1-1)、采集一定量的语音数据作为训练数据,设立对应的帧级别状态目标值;其中,所述帧级别状态目标值包括:叠音语音、单人语音、非语音;
步骤1-2)、从训练数据中提取语音特征,对所提取的语音特征进行处理,生成深度神经网络模型的输入特征;其中,所提取的语音特征包括:13维MFPLP特征、一维基频特征和一维表征基频可信度的NCC特征;对所提取的语音特征进行处理包括:对所提取的语音特征做3阶差分;深度神经网络模型的输入特征包括经3阶差分后的语音特征以及静态特征;
步骤1-3)、利用步骤1-2)得到的深度神经网络模型的输入特征,训练用于叠音检测的深度神经网络模型。
2.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,还包括人工合成模拟叠音数据的步骤;该步骤所生成的模拟叠音数据作为训练数据的一部分,用于深度神经网络模型的训练。
3.根据权利要求2所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,所述人工合成模拟叠音数据的步骤具体包括:
步骤a)、对带标注的标准库的对话数据进行强制对齐,得到语音或非语音的片段信息标注;
步骤b)、对所有训练数据进行加噪处理;
步骤c)、根据片段信息标注,对所有语音片段进行随机两两选择,进行时域线性叠加。
4.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,在步骤1-3)中,采用“概率采样”的重采样方法从训练数据集中采集输入到深度神经网络模型中的数据;
所述“概率采样”的重采样方法的采样概率为:
其中,cs为线性平滑系数,其大小在0-1之间;p(x)为某一类别在训练数据中的先验概率;Nc表示类别的数目。
5.根据权利要求1所述的基于深度神经网络的自动语音叠音检测方法,其特征在于,所述步骤2)进一步包括:
步骤2-1)、向深度神经网络模型输入待检测语音的语音特征,每输入一帧语音特征,都通过深度神经网络模型计算得到这帧语音属于叠音语音或单人语音或非语音的概率;
步骤2-2)、采用维特比算法通过每帧的各状态概率分布最终判断出叠音语音段的起止点;该步骤具体包括:
将深度神经网络模型的输出状态作为观测序列,将叠音语音、单人语音、非语音三种状态的排列作为隐含序列,深度神经网络模型的各个输出状态之间存在转移概率;从语音信号的起始点对语音进行逐帧的判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间的转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列;确定所述最有可能出现的隐含序列每帧上的状态归属后,即可得到哪些帧属于叠音的信息,进而得到叠音语音段的起止点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510696366.1/1.html,转载请声明来源钻瓜专利网。





