[发明专利]提升使用CNN网络结构的语音任务的性能的方法有效

申请号：	201910930279.6	申请日：	2019-09-29
公开（公告）号：	CN110544472B	公开（公告）日：	2021-12-31
发明（设计）人：	陈华官;张志齐	申请（专利权）人：	上海依图信息技术有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L17/06;G10L17/18;G10L25/30
代理公司：	上海市汇业律师事务所 31325	代理人：	唐嘉伟
地址：	200126 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提升使用 cnn 网络结构语音任务性能方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种提升使用CNN网络结构的语音任务的性能的方法，该方法是在语音频谱图中增加位置嵌入。本发明通过在语音频谱图中增加位置嵌入，使得CNN网络在做卷积时能够利用频率信息做一些差异性的处理，从而提升了使用CNN网络结构的语音识别、声纹识别、语言分类等频率的绝对位置信息比较重要的语音任务的性能。

技术领域

本发明涉及语音技术领域，特别是涉及一种可以提升使用CNN网络结构的语音任务的性能的方法。

背景技术

直接从音频波形信号中使用SFT(短时傅里叶变化)抽取出语音的频谱图。基于语音的频谱图，使用卷积神经网络（Convolutional Neural Networks，CNN）结构，可以实现语音识别、声纹识别、语言分类等等语音任务。例如，声纹识别(有1:1验证的场景和1:N检索的场景)的常规流程为：随机截取3秒音频，抽成一张F×N维的频谱图，送入CNN网络中，获得声纹特征(例如，512维的向量)，然后基于此声纹特征做说话人分类，参见图1所示。网络训练使用的是最传统的SGD+Momentum方法。

一张语音频谱图有时间上的平移不变性，但是没有频率维度上的平移不变性，每一个频率维度都有它的独特性，相同的特征出现在不同的频谱位置，表达的含义不同。在使用CNN网络结构做语音任务时，由于CNN网络假设了时间和频率维度两个方向上的平移不变性，以及假设了CNN学到的kernel对所有频率通用，因此CNN无法抓取到相同特征因频谱位置不同而表达出来的不同含义，这就导致算法对信息利用不足，并最终导致算法性能下降。例如，在语音识别中，不同的元音字母发音差异在于共振峰的频率位置不同，单单截取一小块频谱图(低层CNN看到的情况)，不给频率信息，是比较难以分辨它是什么字母的。

发明内容

本发明要解决的技术问题是提供一种提升使用CNN网络结构的语音任务的性能的方法，它可以提升使用CNN网络结构且频率的绝对位置信息比较重要的语音任务的性能。

为解决上述技术问题，本发明的提升使用CNN网络结构的语音任务的性能的方法，是在语音频谱图中增加位置嵌入。

该方法的具体步骤包括：

1）从音频波形信号中抽取出F×N的语音频谱图，其中，F表示频率维度的长度，N表示时间维度的长度；

2）针对语音频谱图上每一个频率和时间位置，增加一个D维的位置嵌入，全部位置嵌入构成一个F×N×D的三维矩阵；

3）将所述F×N×D的三维矩阵和所述语音频谱图合并，形成D+1通道的图片；

4）将所述D+1通道的图片输入到CNN网络中，使用常规SGD方法训练，获得声纹特征并基于此声纹特征进行说话人分类。

所述位置嵌入为随机初始化的、可以学习的权重。

所述F×N×D的三维矩阵可以全部是独立参数，也可以只有F×D个独立参数，按照N这个维度进行共享参数。

较佳的，步骤3），所述F×N×D的三维矩阵和所述频谱图沿着最后一维连接在一起。

所述D+1通道的图片的大小为F×N×(D+1)。