[发明专利]基于个人身份特征的DNN声学模型的自适应方法在审

申请号：	201910016412.7	申请日：	2019-01-08
公开（公告）号：	CN109637526A	公开（公告）日：	2019-04-16
发明（设计）人：	李颖;闫贝贝;郭旭东	申请（专利权）人：	西安电子科技大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/14;G10L15/02;G10L25/24
代理公司：	陕西电子工业专利中心 61205	代理人：	程晓霞;王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于个人身份特征的DNN声学模型的自适应方法。解决了自适应训练中易出现过拟合，个人身份表征能力差，鲁棒性低的问题。具体实现有：提取个人身份特征，用MFCC特征作为非特定说话人的DNN模型输入；搭建GMM‑HMM语音识别系统；搭建具有多个隐层的DNN声学模型的DNN‑HMM基线系统；对DNN声学模型逐层进行个人身份特征自适应训练，得到一个对特定说话人具有自适应能力的DNN声学模型。在个人身份特征提取中采用VAD技术对DNN模型最后一个隐层的权值矩阵分解代替原始特征。本发明充分利用了少量说话人数据对模型参数调整提高特定说话人识别准确率。复杂度低，识别性能显著提升。用于与语音识别相关的智能系统或通信、医疗、车载等。
搜索关键词：	个人身份声学模型自适应训练自适应隐层语音识别系统说话人识别自适应能力表征能力基线系统模型参数模型输入权值矩阵识别性能特征提取语音识别原始特征智能系统非特定复杂度鲁棒性准确率拟合分解通信医疗
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于个人身份特征的DNN声学模型的自适应方法，其特征在于，包括有如下步骤：1)提取特定说话人的个人身份特征；使用非特定说话人的MFCC特征训练一个DNN模型；利用奇异值矩阵分解技术对该DNN模型的最后一个隐层的权重进行分解；利用分解后的特征代替原始MFCC特征对DNN模型再训练，得到一个用于提取低维特征的DNN模型；用该DNN模型提取的非特定说话人的低维特征后，采用通用背景模型对该低维特征进行训练和对齐，得到非特定说话人的个人身份特征，该特征用一个向量表示；当要提取特定说话人的个人身份特征时，用特定说话人替代非特定说话人参与上述操作，实现对特定说话人的个人身份特征提取；2)搭建GMM‑HMM语音识别系统；对传统的声学模型——高斯混合模型GMM进行建模，具体实现步骤包括：2a)对语料库中训练数据采用梅尔频率倒谱系数方法提取13维低维特征，并对每一维特征求一阶差分和二阶差分，得到39维的MFCC特征；2b)对39维的MFCC特征，采用倒谱均值方差归一化预处理，得到其方差归一化特征；2c)对方差归一化特征以帧为单位进行左右扩展，得到超高维空间的特征，经过线性判别分析变换将超高维空间的特征降到低维子空间，获取低维特征，并进行最大似然线性变换，得到基于最大似然准则的解相关特征；2d)对解相关特征进行特征空间最大似然线性回归变换，得到用码本均值矢量表示的特征，称其为fMLLR特征；2e)用k个对角协方差高斯分布函数的线性组合拟合语音数据的概率分布，得到高斯混合模型GMM；用fMLLR特征作为高斯混合模型GMM的输入特征，采用最大互信息准则对高斯混合模型中的每个高斯分量分配权重进行训练，得到经过LDA+MLLT+fMLLR处理的HMM‑GMM语音识别系统。3)构建一个具有多个隐层的DNN声学模型的语音识别非特定说话人DNN‑HMM基线系统在已经训练好的GMM‑HMM识别系统上，将训练数据强制对齐，得到每一帧语音对应的真实标签，用以有监督的DNN声学模型训练；对提取的fMLLR特征每一维特征左右扩帧后作为DNN声学模型的输入，使用语料库中的训练集数据和交叉验证集数据进行初始化训练，完成对具有区分性训练的DNN声学模型的建模；得到一个具有多个隐层的DNN声学模型的非特定人语音识别DNN‑HMM基线系统。4)DNN声学模型逐层进行个人身份特征自适应；在非特定说话人语音识别DNN‑HMM基线系统中利用具有特定说话人区分性的个人身份特征对DNN声学模型进行自适应训练，具体是在DNN声学模型的每个隐层中依次增加自适应数据进行训练，自适应数据即提取的特定说话人个人身份特征，在自适应阶段，利用交叉熵准则对自适应权重和普通权重进行训练，得到一个对特定说话人具有自适应能力的DNN声学模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910016412.7/，转载请声明来源钻瓜专利网。

同类专利

一种用于巡检机器人的语音指令控制方法及装置-201910682607.5
发明人：赵晓晓;朱汝维 -专利权人：广州市申迪计算机系统有限公司
申请日： 2019-07-26 - 公布日： 2019-11-08 - 主分类号： G10L15/16
摘要：本发明公开了一种用于巡检机器人的语音指令控制方法，至少包括以下步骤：获取音频数据；其中，音频数据包括本地音频数据和远程音频数据；通过深度学习法对音频数据中的语音指令进行识别；根据识别到的语音指令执行对应的命令动作。本发明提供的一种用于巡检机器人的语音指令控制方法，能够有效提高对巡检机器人的控制速度和精度，有利于提高巡检机器人的工作效率，且本发明通过语音控制代替传统的按键控制，能够有效提高控制的便捷性和美观，从而能够有效提高用户的使用体验。

基于卷积神经网络的语音特征匹配方法-201910638624.9
发明人：李剑峰 -专利权人：湖南检信智能科技有限公司
申请日： 2019-07-16 - 公布日： 2019-10-25 - 主分类号： G10L15/16
摘要：本发明公开了一种基于卷积神经网络的语音特征匹配方法，包括：S1，预处理，提取音频信号的梅尔谱图，在时域上切割成图像片段，对图像片段做傅里叶变换得到频谱信号；并提取出特征向量；S2，将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件，并将语音记录文件转换成二值特征序列；S3，语音特征匹配，利用语音查询文件与语音记录文件进行比较，查找出与语音查询文件具有相同内容的语音记录文件。本发明提高了语音识别的准确率，降低了语音识别系统的复杂性，增强了软件健壮性。

智能语音信号模式自动识别系统装置-201810561739.8
发明人：宫文峰;张美玲 -专利权人：宫文峰
申请日： 2018-06-04 - 公布日： 2019-10-01 - 主分类号： G10L15/16
摘要：一种智能语音信号模式自动识别系统装置，包含有语音采集装置1、语音识别装置2、中央处理器3、无线信号收发装置4、显示屏8、电源9、存储器33、网络模块31、内存卡32和扬声器35，所述语音采集装置1包含有话筒11、无线对讲机12和固定录音器13，所述语音识别装置2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23，框体10设置有内腔体，在框体10的上端部中间位置处设置有无线信号收发装置4、在无线信号收发装置4的左侧设置有卡槽14，无线对讲机12设置为内嵌式装卡在卡槽14内部，在卡槽14的左侧设置有语音采集装置1，因此，人们识别语音信号更方便。

一种语义识别方法、装置以及相关设备-201910431681.X
发明人：陈诗锦 -专利权人：平安普惠企业管理有限公司
申请日： 2019-05-20 - 公布日： 2019-09-13 - 主分类号： G10L15/16
摘要：本公开实施例公开了一种语义识别方法和装置以及存储介质，该方法包括：获取对话语句，将所述对话语句转换成文本信息后利用词典将所述文本信息分成N个词语，并将所述N个词语转换成对应的N个词向量；其中，所述词典中包含催收对话中出现的词语；利用加入了双向长短时记忆单元的神经网络对所述N个词向量进行语义识别，并给出语义识别结果。采用本公开实施例，能够提高语义识别的精度。

语音识别方法及系统-201910506115.0
发明人：万光辉 -专利权人：苏州思必驰信息科技有限公司
申请日： 2019-06-12 - 公布日： 2019-09-10 - 主分类号： G10L15/16
摘要：本发明实施例提供一种语音识别方法。该方法包括：将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成对话语音关键词；确定关键词所在的串词集合；获取语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及各待选词发音映射确定的第二标签序列，遍历第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为对话语音的识别词语。本发明实施例还提供一种语音识别系统。本发明实施例所考虑的因素和现有的打分方法完全不同，通过串词表确定出串词时，确定各串词的不等长标签序列与语音标签序列的相似度，从而实现语音识别。

用LSTM循环神经网络模型进行语音识别的方法和装置-201510967532.7
发明人：白锦峰;苏丹;胡娜;贾磊 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-12-21 - 公布日： 2019-09-03 - 主分类号： G10L15/16
摘要：本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置，其中方法包括：接收第t时刻的语音输入数据；根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态，其中，n为正整数；根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”，提高了语音识别的准确性。

语音处理方法及设备-201910335969.7
发明人：周昌宇;刘金财;王涛 -专利权人：中国联合网络通信集团有限公司
申请日： 2019-04-24 - 公布日： 2019-08-30 - 主分类号： G10L15/16
摘要：本发明实施例提供一种语音处理方法及设备，该方法包括：确定待处理语音对应的目标话术文本；对所述目标话术文本进行分词处理；根据神经网络模型对分词处理后的话术文本进行句子成分分析，获得分词处理后的话术文本对应的句子成分，所述神经网络模型根据话术文本和句子成分训练得到；根据获得的句子成分，确定所述待处理语音对应的有效话术文本。本实施例提供的方法能够过滤掉无意义的信息，基于有效话术文本进行意图识别，降低用户意图识别难度，提高意图识别结果的准确率，同时省时省力，适合实际应用。

远场语音识别处理方法及装置-201610917557.0
发明人：江巍;关海欣;苏牧;张军 -专利权人：北京云知声信息技术有限公司
申请日： 2016-10-20 - 公布日： 2019-08-16 - 主分类号： G10L15/16
摘要：本发明公开了一种远场语音识别处理方法及装置，该方法包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；对处理后的远场语音进行识别。该方法能够实现对远场语音的优化处理，获取到较佳的处理结果且降低了设备成本投入。

带有多向解码的语音辨识器-201480050496.1
发明人：迈克尔·马克西米利安·伊曼纽尔·比萨尼;尼科·斯特罗姆;比约恩·霍夫迈斯特;赖安·保罗·托马斯 -专利权人：亚马逊技术公司
申请日： 2014-09-17 - 公布日： 2019-08-06 - 主分类号： G10L15/16
摘要：在一种自动化语音辨识(ASR)处理系统中，ASR处理可以被配置来基于从波束形成器接收的音频的多信道处理语音。所述ASR处理系统可以包括麦克风阵列和所述波束形成器以便输出音频的多个信道，以使得每个信道在特定的方向上隔离音频。多信道音频信号可以包括来自一个或多个说话者的说出的话语/语音以及未期望的音频，诸如来自家用电器的噪声。ASR设备可以同时对多信道音频执行语音辨识以便提供更准确的语音辨识结果。

一种语音识别系统-201611101551.2
发明人：沈小正;张光宇;朱孟旭;代大明;肖佳林 -专利权人：苏州奇梦者网络科技有限公司
申请日： 2016-12-05 - 公布日： 2019-07-16 - 主分类号： G10L15/16
摘要：本发明涉及一种语音识别系统，由基本的基于声学模型到拼音映射网络的基础识别器和任意多个针对不同应用领域的基于拼音到词语映射网络的特定识别器以及一个综合决策单元共同组成。语音首先通过基础识别器映射为由多个候选拼音序列组织成的网络，然后该拼音网络再通过和一个对应特定应用目标的特定识别器进行组合，最后在组合后的网络上进行最佳路径的搜索，得到最终的识别结果。在这种架构下，拼音网络可以和多个应用领域的单独的拼音到词语映射的特定识别器进行组合，最终根据声学和语言模型评分以及其他应用相关的超级规则选择最佳的识别结果。

语音识别方法、语音识别装置、可读存储介质和电子设备-201811601636.6
发明人：施阳阳;黄美玉;雷欣 -专利权人：出门问问信息科技有限公司
申请日： 2018-12-26 - 公布日： 2019-07-09 - 主分类号： G10L15/16
摘要：本发明实施例公开了一种语音识别方法、语音识别装置、可读存储介质和电子设备。本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量，根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量，并根据所述多个第二向量获取对应的所述声学特征向量的第三向量，进而根据所述第三向量确定所述输入序列对应的概率分布序列，从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此，通过多个投影矩阵能够使得标签识别的准确率提升，从而在后续提升语音识别的准确率。

一种基于深度学习的鸟类识别方法-201910264817.2
发明人：吕坤朋;孙斌;赵玉晓 -专利权人：中国计量大学
申请日： 2019-04-03 - 公布日： 2019-07-05 - 主分类号： G10L15/16
摘要：本发明涉及一种基于深度学习的鸟类识别方法，属于鸟类鸣声识别技术领域。主要包括以下步骤：首先对不同种类鸟鸣声进行时频分析，得到不同种类鸟鸣声的时频谱图，再通过卷积神经网络提取时频谱图的图像特征，最后经过分类器，根据特征进行鸟类分类识别。该方法有较强的抗交叉干扰项的能力，分辨率较高，将鸟类各种富于变化的音节特征提取出来作为分类依据，特征参数代表性更强，受环境噪声影响弱。

一种基于智能机器人的语音交互方法-201910118358.7
发明人：于瑞国;顾楠;徐天一;赵满坤;刘志强;王建荣;喻梅 -专利权人：天津大学
申请日： 2019-02-16 - 公布日： 2019-07-02 - 主分类号： G10L15/16
摘要：本发明公开了一种基于智能机器人的语音交互方法，方法包括：获取语音语料库，构建训练数据集和测试数据集，并对数据进行预处理；计算训练数据集的梅尔频率倒谱系数；搭建python+Anaconda+Tensorflow环境，使用python的keras库训练基于卷积神经网络构建语音识别模型；调用语义理解接口，处理语音识别结果；同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型；将软件程序打包安装在智能机器人上后，分模块进行测试，再进行整体测试，根据测试效果重复上述内容，以进行调试和修改。本发明使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能，从而实现其在大型场所进行引导、介绍的功能。

一种基于深度神经网络的远场语音识别增强系统及方法-201711353549.9
发明人：杨敏 -专利权人：上海擎语信息科技有限公司
申请日： 2017-12-15 - 公布日： 2019-06-25 - 主分类号： G10L15/16
摘要：本发明涉及一种基于深度神经网络的远场语音识别增强系统，包括训练系统、识别系统，识别系统包括远场声源采集装置、语音识别系统，训练系统包括数据采集装置、训练模块，采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列。本发明还公开了一种基于深度神经网络的远场语音识别增强方法，包括数据采集、数据训练、增强识别等过程。本发明采用近场与远场相结合的方式训练识别系统，具有远场声源识别效果较好的特点。

一种基于图像分析的幼儿智能语音教育的方法-201610871506.9
发明人：夏春秋 -专利权人：深圳市唯特视科技有限公司
申请日： 2016-09-29 - 公布日： 2019-06-25 - 主分类号： G10L15/16
摘要：本发明中提出的一种基于图像分析的幼儿智能语音教育的方法，其主要内容包括：训练数据库和智能教育流程，其过程为，采用幼儿认知教育图片形成素材库，结合知识库形成问题与解决系统。当语音输入问题时，利用长短期记忆模型递归神经网络的语音识别方法进行语音识别。采用VQA模型，包括引导反向传播技术和闭塞模型进行语义分析和图像分析。然后在问题与解决系统中查询知识信息，通过多层感知分类器获得最高概率答案并返回答案，最后语音输出答案并以文字显示。本发明能自动分析语音输入获得用户问题信息，进行自动推理生成问题答案，进行智能语音教育。使用方便，操作快捷，减少了家长和老师的机械性劳动；增加了趣味性，提高幼儿的学习效率。

多语言深神经网络-201480025694.2
发明人： J-T·黄;J·李;D·俞;L·邓;Y·宫 -专利权人：微软技术许可有限责任公司
申请日： 2014-03-05 - 公布日： 2019-06-25 - 主分类号： G10L15/16
摘要：本文描述了涉及多语言深神经网络(MDNN)的各种技术。MDNN包括多个隐藏层，其中所述多个隐藏层的权重参数的值是在训练阶段期间基于训练数据在多种语言的声学原始特征方面学习的。MDNN进一步包括针对每一目标语言分别训练的softmax层，从而利用使用多种源语言联合训练的隐藏层值。MDNN是能自适应的，使得新softmax层可被添加在现有隐藏层顶上，其中新softmax层对应于新目标语言。

一种基于循环神经网络的语音自动断句算法-201910289742.3
发明人：张亚飞;张卫山 -专利权人：中国石油大学（华东）
申请日： 2019-04-11 - 公布日： 2019-06-14 - 主分类号： G10L15/16
摘要：本发明提出了一种基于循环神经网络的语音自动断句算法，基于长短期记忆网络的模式挖掘与分析，结合语音信息核文本信息来实现语音的自动断句。该算法分为训练阶段和运行阶段：训练阶段主要通过收集的相应数据集，即音频文件和对应的文本文件，结合语音识别技术，将文本文件中的句号转化为断句的标签。通过有监督训练长短期记忆网络来优化参数。在运行阶段，通过单纯输入音频文件来使长短期记忆网络输出相应断句点，进而通过相应程序进行断句切分。以最终达到语音自动断句的目的。

在语音识别仲裁中使用的神经网络-201811293355.9
发明人： X·F·赵;G·塔瓦尔 -专利权人：通用汽车环球科技运作有限责任公司
申请日： 2018-11-01 - 公布日： 2019-05-21 - 主分类号： G10L15/16
摘要：一种在客户端设备处执行语音仲裁的系统和方法，该客户端设备包括神经网络语音仲裁应用，其中该神经网络语音仲裁应用被配置为实现神经网络语音仲裁过程，并且其中该方法包括：在客户端设备处接收语音信号；生成和/或获得要在语音仲裁神经网络过程中使用的成组的输入，其中语音仲裁神经网络过程使用适合于语音仲裁并且可以用于确定是否和/或在何种程度上应该在客户端设备处进行所接收到的语音信号的语音识别处理的神经网络模型；接收语音仲裁输出，该语音仲裁输出指示在客户端设备或远程服务器处是否和/或在何种程度上执行所接收到的语音信号的语音识别处理。

基于振幅和相位信息的多目标学习的远场语音识别方法-201910134661.6
发明人：党建武;崔凌赫;王龙标;李东播 -专利权人：天津大学
申请日： 2019-02-23 - 公布日： 2019-05-17 - 主分类号： G10L15/16
摘要：本发明公开了一种基于振幅和相位信息的多目标学习的远场语音识别方法，包括以下步骤：步骤一，输入数据准备；步骤二，提取振幅特征和多种相位特征；步骤三，构建多任务深度神经网络，将提取的振幅特征和相位特征输入到神经网络中训练，输出增强后语音以及增强后的特征。利用增强后的语音做SRMR评测，利用增强后的特征做语音识别。本发明利用了多目标学习的方法，同时增强了语音和特征，与现有的方法相比，考虑到了群延迟系统(MGDCC)特征在混响语音下的效果较差，增加了另一种相位特征基于相位域的源分离方法的声道信息(PBSFVT)来弥补MGDCC的不足，进而提高语音识别准确率。

基于个人身份特征的DNN声学模型的自适应方法-201910016412.7
发明人：李颖;闫贝贝;郭旭东 -专利权人：西安电子科技大学
申请日： 2019-01-08 - 公布日： 2019-04-16 - 主分类号： G10L15/16
摘要：本发明公开了一种基于个人身份特征的DNN声学模型的自适应方法。解决了自适应训练中易出现过拟合，个人身份表征能力差，鲁棒性低的问题。具体实现有：提取个人身份特征，用MFCC特征作为非特定说话人的DNN模型输入；搭建GMM‑HMM语音识别系统；搭建具有多个隐层的DNN声学模型的DNN‑HMM基线系统；对DNN声学模型逐层进行个人身份特征自适应训练，得到一个对特定说话人具有自适应能力的DNN声学模型。在个人身份特征提取中采用VAD技术对DNN模型最后一个隐层的权值矩阵分解代替原始特征。本发明充分利用了少量说话人数据对模型参数调整提高特定说话人识别准确率。复杂度低，识别性能显著提升。用于与语音识别相关的智能系统或通信、医疗、车载等。

基于深度学习的阿尔茨海默症语音信号的筛查方法-201811464595.0
发明人：周青;顾明亮;马勇;朱祖德 -专利权人：江苏师范大学
申请日： 2018-12-03 - 公布日： 2019-04-05 - 主分类号： G10L15/16
摘要：基于深度学习的阿尔茨海默症语音信号的筛查方法，涉及语音处理技术，包括步骤：训练深度置信网络模型备用；使被检测者进行不同口语产出任务并采集被检测者的语音；对所采集语音进行预处理；提取预处理后的语音中和阿尔茨海默症相关的病理特征并将其输入训练好的深度置信网络模型进行训练得到优化特征；将优化特征输入训练好的SVM分类器进行分类，分类结果即为筛查结果。本发明的基于深度学习的阿尔茨海默症语音信号的筛查方法，利用深度学习实现了AD快速筛查，只通过被试者语音即可做出初步判断，方法简单，智能化程度高。

一种基于胶囊神经网络的多任务语音分类方法-201811346110.8
发明人：陈盈科;毛华;吴雨;何涛 -专利权人：四川大学
申请日： 2018-11-13 - 公布日： 2019-03-26 - 主分类号： G10L15/16
摘要：本发明公开了一种基于胶囊神经网络的多任务语音分类方法，涉及语音信号分析，人工智能等技术领域，解决在语音识别中的多任务分类问题。本发明主要有提取语音的特征表达，包括从频域，时域等多个角度去提取语音的初级特征；运用卷积神经网络和胶囊神经网络，在预处理后的语音初级特征基础上，再进行深层次的语音特征的抽象与学习；在高级特征之后根据多任务需求设计多个分类器，将多个分类器的损失函数融合，统一训练多任务语音分类模型，最终达到在多个任务上同时提高分类准确率。

一种语音识别方法及装置、设备、介质-201811550375.X
发明人：郭晖;张楠赓 -专利权人：北京嘉楠捷思信息技术有限公司
申请日： 2018-12-18 - 公布日： 2019-03-08 - 主分类号： G10L15/16
摘要：本申请公开了一种语音识别方法及装置、设备、介质。该方法至少包括：对待识别音频数据进行傅里叶变换，得到语谱图；利用根据预设的语音识别字典构建并训练的卷积神经网络，对语谱图进行处理，输出相应的张量，语音识别字典中指定了字词与音素之间的映射关系；在相应的张量中进行搜索，得到相应的文本，作为语音识别结果。本申请利用卷积神经网络对待识别音频数据对应的语谱图进行识别，无需预先提取特征，能够复用图像识别算法来实现语音识别，有助于降低计算量，减少处理时间，也有助于减少信息损失，提高识别率。

一种基于语深度神经网络的语言识别方法-201811514704.5
发明人：洪创波 -专利权人：广东潮庭集团有限公司
申请日： 2018-12-10 - 公布日： 2019-02-19 - 主分类号： G10L15/16
摘要：本发明涉及一种基于语深度神经网络的语言识别方法，S11、采用双正交小波变换对输入的语音信息进行滤波处理；S12、采用梅尔频率倒谱系数提取能够反映语音信号特征的关键特征参数所形成的特征序列；S13、使用训练语音库的特征参数进行声学模型的训练；S14、使用文本数据库的特征参数进行语言模型训练；S15、建立解码器，针对输入的语音信号，根据已经训练好的HMM声学模型、语言模型及字典建立识别网络；S16、根据步骤S15，解码器在文本库中检索与待识别的语音特征参数匹配的词，并判断该词对应的前后关联常用词，并根据步骤S14中识别的语法和语音进行排序，最终转换为文本信息；本发明有具有识别效率高、语音转换准确的优点。

基于双模型识别的语音领域命令理解方法-201811076254.6
发明人：段礼强;李贤;乐雨泉 -专利权人：苏州亭云智能科技有限公司
申请日： 2018-09-14 - 公布日： 2019-01-11 - 主分类号： G10L15/16
摘要：本发明涉及一种基于双模型识别的语音领域命令理解方法，外部输入话语先经循环神经网络模型处理并进行语音意图的判断，在得出判断结果后再经条件随机场模型生成目标序列标签，从而提取出语音实体，所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据，生成最终的控制指令。本发明中的循环神经网络模型的目标是为判断用户的话语是否表达了一个语音领域的意图，如此能够提高识别准确性，降低识别出错率。

一种基于神经网络的语音识别方法及装置-201811212495.9
发明人：饶竹一;张云翔 -专利权人：深圳供电局有限公司
申请日： 2018-10-18 - 公布日： 2019-01-04 - 主分类号： G10L15/16
摘要：本发明提供一种基于神经网络的语音识别方法及装置，所述方法包括对获取的待识别语音信号分帧处理，获得所述待识别语音信号的语音帧特征向量矩阵；利用卷积神经网络对所述语音帧特征向量矩阵进行识别，获得待识别语音信号对应的文字；解析所述待识别语音信号对应的文字得到目标语义；根据所述目标语义，启动与所述目标语义对应的第三方程序。本发明通过人工智能学习的方法进行语音识别，解决了现有技术只能机械地识别语音信息库中已有的信息，无法准确识别一些口音不准或者模糊的语音命令的问题。

基于多源识别的语音识别方法、系统、音箱及存储介质-201810673599.3
发明人：蔡洁荣 -专利权人：福来宝电子（深圳）有限公司
申请日： 2018-06-25 - 公布日： 2019-01-01 - 主分类号： G10L15/16
摘要：本发明公开了一种基于多源识别的语音识别方法、系统、音箱及存储介质，所述方法包括：通过智能音箱获取用户语音；智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；智能音箱对相同的所述至少两个识别结果进行输出；智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。本发明通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别，在识别结果相同时进行输出，在识别结果不同时，进行同一化后得到最终识别结果再进行输出，极大的提高了智能音箱语音识别精度。

一种语音智能分类方法及系统-201811000494.8
发明人：饶鉴;熊展坤;刘罡 -专利权人：湖北工业大学
申请日： 2018-08-30 - 公布日： 2018-12-25 - 主分类号： G10L15/16
摘要：本发明公开了一种语音智能分类方法及系统。该方法包括：获取训练集语音数据；对所述训练集语音数据进行处理，得到训练集特征数据；构建初始化模型；所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层；通过所述训练集特征数据对所述初始化模型进行训练，得到分类模型；获取测试集语音数据；对所述测试集语音数据进行处理，得到测试集特征数据；通过所述分类模型对所述测试集特征数据进行分类。本发明的方法或系统能够加快语音分类训练时的收敛速度，提高判断精度。

语音识别方法及相关产品-201810801238.2
发明人：不公告发明人 -专利权人：上海寒武纪信息科技有限公司
申请日： 2017-10-30 - 公布日： 2018-12-14 - 主分类号： G10L15/16
摘要：本公开提供了一种语音识别方法，所述方法应用于计算装置内，所述计算装置包括：DMA单元和运算单元；所述方法包括如下步骤：通过DMA单元获取用户输入的待识别语音；运算单元调用运算指令对所述待识别语音进行语音识别处理，从而获得所述待识别语音所对应的目标文本信息；其中，所述运算指令为预先设置用于语音识别的指令。本申请提供的技术方案具有进行语音识别时计算速度快，效率高的优点。

手机麦克风的消噪系统和消噪方法-201510863119.6
发明人：章雒霏;张铭;李晨 -专利权人：南京师范大学
申请日： 2015-12-01 - 公布日： 2018-11-09 - 主分类号： G10L15/16
摘要：本发明公开了手机麦克风消噪系统和消噪方法，通过利用语音和噪声活动检测装置和消噪模块对手机主、次麦克风接收到的带噪语音信号进行消噪处理，解决了现有的双通道语音活动检测装置依赖于固定的阈值无法在复杂的噪声环境下准确的区分语音和噪声，应用于手机消噪系统会造成语音失真降低可懂度的问题，减少了消噪系统因语音活动检测装置的误判而造成的性能下降，使得消噪系统能够对麦克风接收到的带噪语音信号进行精确的降噪，提高了手机通话的质量。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于个人身份特征的DNN声学模型的自适应方法在审

专利文献下载