[发明专利]用于生成样本的方法和装置有效

申请号：	201810506366.4	申请日：	2018-05-24
公开（公告）号：	CN108831446B	公开（公告）日：	2019-10-18
发明（设计）人：	李超;文铭;孙建伟;朱唯鑫	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/06;G10L15/02
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括：获取候选室内混响集合；对候选室内混响集合中的候选室内混响的混响时间进行统计，得到混响时间分布；将混响时间分布划分为至少一个混响时间分布区间，确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响；对至少一个混响时间分布区间进行抽样，得到落入所抽样出的混响时间分布区间内的候选室内混响，生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
搜索关键词：	混响时间分布室内混响样本方法和装置集合抽样声学模型申请统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于生成样本的方法，包括：获取候选室内混响集合；对所述候选室内混响集合中的候选室内混响的混响时间进行统计，得到混响时间分布；将所述混响时间分布划分为至少一个混响时间分布区间，确定落入所述至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响；对所述至少一个混响时间分布区间进行抽样，得到落入所抽样出的混响时间分布区间内的候选室内混响，生成样本室内混响集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810506366.4/，转载请声明来源钻瓜专利网。

上一篇：四川方言识别方法、声学模型训练方法、装置及设备
下一篇：基于HMM和PNN的语音识别方法、装置及存储介质

同类专利

一种融合了短时与长时特征建模的环境声识别方法及装置-201511020925.3
发明人：刘文举;胡鹏飞;张邯平;高鹏;董理科;刘晓飞;乔利玮;王桐 -专利权人：中国科学院自动化研究所;国网山西省电力公司电力科学研究院;山西振中电力股份有限公司
申请日： 2015-12-30 - 公布日： 2019-11-01 - 主分类号： G10L15/14
摘要：本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法，使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤：对于滑动窗，首先基于短时特征使用混合高斯模型(GMM)建模进行预分类；对GMM的分类结果，进行置信度判别，置信度高的结果直接作为最终的分类结果，置信度较低时，则基于长时特征再分类；在第二阶段，基于对GMM分类结果混淆矩阵的分析，找出容易混淆的类，训练这些类之间的支持向量机(SVM)分类模型，使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。

基于CDNN-HMM的中英文民航陆空通话声学模型构建方法-201910717450.5
发明人：张海刚;刘远庆;杨金锋 -专利权人：中国民航大学
申请日： 2019-08-05 - 公布日： 2019-10-29 - 主分类号： G10L15/14
摘要：一种基于CDNN‑HMM的中英文民航陆空通话声学模型构建方法。其包括建立中英文民航陆空通话语料库；对语音信号进行预处理；提取出Fbank特征；对声学特征进行处理，获得Tran‑Fbank特征；利用Tran‑Fbank特征构建基于CDNN‑HMM的中英文民航陆空通话声学模型等步骤。本发明优点：通过对不同卷积神经网络的实验结果分析，一维卷积神经网络更适合民航陆空通话语音信号的识别任务，加入卷积的深度神经网络声学模型比单纯的DNN‑HMM模型性能更好。加入低帧率(LFR)后，不仅有效地降低了词错误率，而且也缩短了模型训练解码的时间。

一种语音识别方法、装置、机器可读介质及设备-201910600014.X
发明人：周曦;姚志强;李夏风;李继伟;谭涛;杨学锐 -专利权人：广州云从信息科技有限公司
申请日： 2019-07-04 - 公布日： 2019-10-18 - 主分类号： G10L15/14
摘要：本发明公开了一种语音识别方法，所述语音识别方法包括：获取待识别语音并从所述待识别语音中提取对应的声学特征；利用训练的声学模型对所述声学特征进行识别，获得识别结果；其中，所述训练的声学模型通过以下方式获取：根据不同的声学模型，确定对应的训练准则并通过所述训练准则对所述声学模型进行训练，获得训练的声学模型。本发明采用端到端的LF‑MMI方法，不用对多个GMM‑HMM模型进行迭代训练获取音素对齐信息，其训练速度快，达到同样的识别率，训练时间可以提高3倍以上；同时，减少了pre‑model的训练，降低了整个框架的复杂度。

用于生成样本的方法和装置-201810506366.4
发明人：李超;文铭;孙建伟;朱唯鑫 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-05-24 - 公布日： 2019-10-18 - 主分类号： G10L15/14
摘要：本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括：获取候选室内混响集合；对候选室内混响集合中的候选室内混响的混响时间进行统计，得到混响时间分布；将混响时间分布划分为至少一个混响时间分布区间，确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响；对至少一个混响时间分布区间进行抽样，得到落入所抽样出的混响时间分布区间内的候选室内混响，生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。

声音检索装置、声音检索方法-201510974271.1
发明人：富田宽基 -专利权人：卡西欧计算机株式会社
申请日： 2015-12-22 - 公布日： 2019-10-11 - 主分类号： G10L15/14
摘要：本发明提供声音检索装置、声音检索方法。检索字符串取得部取得检索字符串。变换部将检索字符串变换为音素串。时间长度导出部使用语速不同的多个音素的持续时间长度，导出多个与检索字符串对应的声音的发声时间长度。区间指定部指定检索对象的声音信号中的似然取得区间。似然取得部取得表示似然取得区间为发出与检索字符串对应的声音的区间的似然度的似然。重复部改变由区间指定部指定的似然取得区间，重复进行区间指定部和似然取得部的处理。选择部选择使用与似然变高的语速对应的持续时间长度的似然取得区间。确定部根据针对所选择的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出与检索字符串对应的声音的推定区间。

一种音频分割方法及装置-201610202144.4
发明人：谭应伟;王涛 -专利权人：北京奇艺世纪科技有限公司
申请日： 2016-03-31 - 公布日： 2019-09-17 - 主分类号： G10L15/14
摘要：本发明实施例公开了一种音频分割方法及装置，方法包括：根据预设的特征提取算法提取目标音频的目标特征值；根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分；将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型；根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。应用本发明实施例提供的方案分割音频，可以把音频分割为静音部分、音乐部分和非音乐部分。

一种语音激活检测方法及装置-201610886934.9
发明人：范利春;朱磊 -专利权人：芋头科技（杭州）有限公司
申请日： 2016-10-11 - 公布日： 2019-09-13 - 主分类号： G10L15/14
摘要：本发明涉及语音识别技术领域，尤其涉及一种语音激活检测方法及装置，通过采用两次激活检测的方法，将第一次激活判断中取到的语音片段输入BLSTM循环神经网络，通过对整条语音的所有帧进行处理，最终判定是否激活语音识别设备。在两次激活确认中，第一次激活的阈值可以设置适当宽松，以保证较高的检出率；第二次激活确认由于已知起始点，相对更加准确，两次激活检测能够同时降低误激活和漏激活，即有效降低激活的等错误率，从而更加有效的保证激活的性能。

一种使用动态贝叶斯网络模型的语音识别系统和方法-201380031695.3
发明人：巴尔托什·焦尔科;托马什·贾奇克 -专利权人：克拉科夫大学
申请日： 2013-06-26 - 公布日： 2019-09-13 - 主分类号： G10L15/14
摘要：一种用于语音识别的计算机实现的方法，包括以下步骤：通过输入设备(102A)的方式，记录(201)表示语音的电信号，并将该信号转换为频域或时‑频域(202)，基于动态贝叶斯网络在分析模块中分析信号(205)，被配置为基于观察到的信号特征(OA，OV)生成单词(W)的假设和它们的概率，基于特定单词(W)假设和它们的概率，识别(209)出表示语音的电信号所对应的文本。该方法的特征在于，将观察到的信号特征(308‑312)输入到分析模块(205)中，其中，所述观察到的信号特征是在至少两条并行信号处理线(204a，204b，204c，204d，201a)上，为频域或时‑频域(202)中信号而确定的，其中每条线上的时间片段都不同，以及，在分析模块(205)中对至少两个不同的时间片段分析观察到的信号特征(308‑312)之间的关系。

空间音频信号滤波-201910433053.5
发明人： R·O·耶尔维宁;K·J·耶尔维宁;J·H·阿拉斯沃里;M·维勒尔莫 -专利权人：诺基亚技术有限公司
申请日： 2012-03-14 - 公布日： 2019-09-10 - 主分类号： G10L15/14
摘要：一种装置，包括：分析器，其被配置为分析至少一个输入以确定所述至少一个输入内的一个或多个表达；以及控制器，其被配置为根据有关所述一个或多个表达的所述确定，控制与所述至少一个输入关联的至少一个音频信号。

多语系语音辨识装置及其方法-201610227058.9
发明人：林心鹏;陈建宏;陈奕丞;林薰苑 -专利权人：中华电信股份有限公司
申请日： 2016-04-13 - 公布日： 2019-09-06 - 主分类号： G10L15/14
摘要：本发明实施例提供一种多语系语音辨识装置及其方法。该装置包括接收模块及多个不同语系的语音模型，其中：所述接收模块，用于接收声音音框；所述语音模型，所述语音模型是基于不同语系的语料所训练得出的语音模型，并包含多个语音状态，所述语音模型用于根据所述接收模块接收的所述声音音框产生对应于所述多个语音状态的多个语音状态分数，各个所述语音模型的语音状态分数中选择多个修正元素，再根据所述多个修正元素产生修正值。该多语系语音辨识装置可以消除多语系偏移现象。

语音识别方法及装置-201510051345.4
发明人：孙廷玮;林福辉 -专利权人：展讯通信（上海）有限公司
申请日： 2015-01-30 - 公布日： 2019-09-06 - 主分类号： G10L15/14
摘要：一种语音识别方法及装置，所述方法包括：将采集到的输入声音信号进行处理，得到输入声音数据；对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据；采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到；当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。

一种基于声效模式检测的语音识别方法-201610299376.6
发明人：晁浩;智慧来;刘志中;鲁保云 -专利权人：河南理工大学
申请日： 2016-05-05 - 公布日： 2019-08-30 - 主分类号： G10L15/14
摘要：本发明公开了一种基于声效模式检测的语音识别方法。该方法包括如下步骤：接收语音信号；检测所述语音信号的声效模式；从预置的声学模型集中选择所述声效模式对应的声学模型子集；根据所述声学模型子集对所述语音信号进行解码。

基于直方图获取有效HMM的预剪枝方案-201380073442.2
发明人：奥加斯·A·巴帕特 -专利权人：赛普拉斯半导体公司
申请日： 2013-12-16 - 公布日： 2019-08-30 - 主分类号： G10L15/14
摘要：本发明的实施方式包含声学处理设备、用于声信号处理的方法以及语音识别系统。语音处理设备可包含处理单元、直方图剪枝单元和预剪枝单元。处理单元被配置成计算一个或多个隐马尔可夫模型(HMM)剪枝门限。直方图剪枝单元被配置成剪枝一个或多个HMM状态，以便产生一个或多个有效HMM状态。剪枝基于一个或多个剪枝门限。预剪枝单元被配置成基于可调节预剪枝门限来剪枝一个或多个有效HMM状态。而且，可调节预剪枝门限基于一个或多个剪枝门限。

用于语音识别的音素签名候选-201410487689.5
发明人： K.彻克特 -专利权人： SAP欧洲公司
申请日： 2014-09-22 - 公布日： 2019-07-30 - 主分类号： G10L15/14
摘要：本文描述了用于语音信号中的音素鉴别的系统和方法的各种实施例。在计算设备处确定语音信号的基础频率。基于归一化的音素函数计算极值点处的曲率。归一化的音素函数是音素函数的时间周期和音素函数的值的函数。将计算出的曲率与音素的基准曲率进行比较。当计算出的曲率的序列与基准曲率的序列相匹配时，鉴别相应的音素。

基于音频的广告检测方法以及装置-201910005337.4
发明人：刘伯涵 -专利权人：刘伯涵
申请日： 2019-01-03 - 公布日： 2019-06-28 - 主分类号： G10L15/14
摘要：本发明是关于一种基于音频的广告检测方法、装置、电子设备以及存储介质。该方法包括：对待处理音频信息进行分片处理，形成多个音频单元；对于每一音频单元，获取该音频单元的语音信号学特征并据以分类至正常音频单元集合或者广告音频单元集合；将广告音频单元集合中的各音频单元作为存疑音频单元，并对各存疑音频单元进行语音识别，获取对应的文本信息；检测各文本信息中是否包含广告关键字，并在检测到文本信息中包含广告关键字时，确定该文本信息对应的音频单元包含广告；将对各音频单元的检测结果进行分析并输出，以确定广告的位置。本发明可以提高广告检测的准确性。

语音识别的环境自适应方法、语音识别装置和家用电器-201610847088.X
发明人：杨世清;戴江;石周;唐红强 -专利权人：合肥美的智能科技有限公司
申请日： 2016-09-23 - 公布日： 2019-06-28 - 主分类号： G10L15/14
摘要：本发明公开了一种语音识别的环境自适应方法，该方法包括以下步骤：获取当前环境下的语音信息；提取语音信息的语音特征，并对语音特征进行环境自适应处理；根据声学模型和语言模型获得对应语音特征的最大概率的词序列。该环境自适应方法，可以降低环境噪声对语音识别的影响，提升语音识别的鲁棒性。本发明还公开一种语音识别装置和包括该装置的家用电器。

高速公路口礼貌用语评分方法-201910181668.3
发明人：卢朝阳;周云蝶;李静 -专利权人：西安电子科技大学
申请日： 2019-03-11 - 公布日： 2019-06-14 - 主分类号： G10L15/14
摘要：本发明公开了一种高速公路口礼貌用语评分方法，主要解决现有人工监督收费员时重复枯燥且易疏忽的问题。其实现方案为：对语料库文件进行预处理，完成24维MFCC特征参数提取，并对特征参数进行训练，得到关键词和Filler并行的网络模型；对测试语音完成预处理和特征提取后，得到测试语音特征参数，并对测试语音特征参数与得到的网络模型进行匹配，得到初始检索结果；对初始检索结果与孤立词模型进行匹配，得到最终检索结果，若检索结果中包含所有关键词，则判为100分，否则，缺y个关键词，则判为100‑y*100/m分。本发明具有良好的鲁棒性，且关键词检索的正确率较高，误识率较低，适用于高速公路口管理。

车载语音数据解析识别方法-201610534783.0
发明人：谢欣霖;陈波 -专利权人：成都之达科技有限公司
申请日： 2016-07-08 - 公布日： 2019-06-11 - 主分类号： G10L15/14
摘要：本发明提供了一种车载语音数据解析识别方法，该方法包括：读入要识别的语音，经过前端处理后得到观测序列，计算观测序列与所有词条对应模型的条件概率，根据所述条件概率确定词条识别结果。本发明提出了一种车载语音数据解析识别方法，不需要离线字典中的标记训练样本集，对规则的依赖性小，提高了识别精度，适应车载系统不断更新的需求。

一种提供语音识别结果的方法及系统-201210293201.6
发明人：刘俊启 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2012-08-16 - 公布日： 2019-04-26 - 主分类号： G10L15/14
摘要：本发明提供了一种提供语音识别结果的方法及系统，其中提供语音识别结果的方法包括信息收集阶段和语音识别阶段，其中所述信息收集阶段包括：客户端模块获取移动终端的本地信息；所述语音识别阶段包括：在获取到待识别语音后，所述客户端模块将待识别语音发送至服务器模块；所述服务器模块对待识别语音进行识别，并将识别结果返回所述客户端模块；所述客户端模块利用所述本地信息对所述识别结果进行矫正，并将矫正后的识别结果作为最终的语音识别结果。通过上述方式，可以解决由于文字存在同音异义现象而导致的语音识别错误。

一种语音识别方法及其设备-201610272292.3
发明人：钱柄桦;吴富章;李为;李科;吴永坚;黄飞跃 -专利权人：腾讯科技（深圳）有限公司
申请日： 2016-04-28 - 公布日： 2019-04-26 - 主分类号： G10L15/14
摘要：本发明实施例公开一种语音识别方法及其设备，其中方法包括如下步骤：获取基于交互应用所输入的目标音频数据；提取所述目标音频数据中的目标Filter bank特征；将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。采用本发明，可以满足各种实际应用环境以及发音习惯的语音识别，提升语音识别的准确性。

一种智能语音设备控制方法-201811420375.8
发明人：历建双;历彦程 -专利权人：安徽吉露科技有限公司
申请日： 2018-11-26 - 公布日： 2019-03-19 - 主分类号： G10L15/14
摘要：本发明公开了一种智能语音设备控制方法，语音接收器对语音信号进行接收并进行压缩后，将其输送至声学模块，声学模块对语音信号内的杂音进行消除，并计算语音信号的矢量序列和每个音节之间的距离，之后声学模块将其输送至语音提取模块，语音提取模块将语音信号与其内部的命令数据库进行比对。本发明步骤四中的声学模块对语音信号内的杂音进行消除，将有效的语音信号单独剥离出来，有效解决了杂音对语音信号的影响，降低了错误几率，通过步骤四中的声学模块对语音信号的矢量序列和每个音节间的间距进行计算，可以有效地分辨相近出发音的与语音命令，避免了设备无法有效地分辨相近发音语音信号的问题。

一种基于GMM噪声估计的模型组合语音识别方法-201510686426.1
发明人：吕勇 -专利权人：河海大学
申请日： 2015-10-20 - 公布日： 2019-03-12 - 主分类号： G10L15/14
摘要：本发明公开一种基于GMM噪声估计的模型组合语音识别方法，用一个含有较少高斯单元的GMM从含噪测试语音中实时估计噪声参数，并监控噪声的变化。噪声参数估计按时间间隔进行，每个时间间隔更新一次噪声参数，静音段也当作含噪语音处理。估得的噪声参数除了用于模型组合，还存储在内部存储器中，用于下一个时间间隔的噪声变化判断。在噪声监控中，首先从存储器中读取上一个时间间隔的噪声参数，然后与纯净语音GMM组合，得到含噪语音GMM，并对当前时间间隔的含噪测试语音进行概率计算，将输出的平均对数似然值与噪声参数估计子模块输出的平均对数似然值进行比较，若似然差大于阈值，则认为噪声发生了变化，否则就认为噪声不变。

一种基于子带VTS的模型自适应方法-201510686218.1
发明人：吕勇 -专利权人：河海大学
申请日： 2015-10-20 - 公布日： 2019-01-11 - 主分类号： G10L15/14
摘要：本发明公开一种基于子带VTS的模型自适应方法，考虑了Mel滤波器组相邻通道之间的相关性，将全部Mel通道划分为若干个子带，假设每个子带内的全部Mel通道的环境变换关系共享同一个噪声参数，从而增加最大似然参数估计可用的数据量。该方法可以较好地克服数据稀疏问题，只需要很少的数据即可取得较好的自适应效果，尤其适合于少量数据时的快速模型自适应。

一种DNN-HMM声学模型参数迁移结构-201811176930.7
发明人：马志强;李图雅;韩佳俊 -专利权人：内蒙古工业大学
申请日： 2018-10-10 - 公布日： 2019-01-04 - 主分类号： G10L15/14
摘要：本发明通过将一种DNN‑HMM声学模型参数迁移结构对小语料库在声学特征中的改进，具有提高声学模型对声学特征的建模能力，降低小规模数据下语音识别的词错误率和句错误率，以训练小语料库下的DNN‑HMM声学模型，并将其定义的异构模型参数迁移模型和迁移训练算法，在声学模型训练时加入异构模型参数迁移，通过将源数据训练得到的DNN模型的参数迁移到目标数据训练出来的模型中，实现DNN‑HMM异构模型的参数迁移，以此来降低语音识别的词错误率和句错误率等优点，从而有效的解决了现有技术中存在的问题和不足。

四川方言识别方法、声学模型训练方法、装置及设备-201810491963.4
发明人：张蕾;应汪洋;章毅;郭际香;陈媛媛 -专利权人：四川大学
申请日： 2018-05-21 - 公布日： 2018-11-16 - 主分类号： G10L15/14
摘要：本发明提供的四川方言识别方法、声学模型训练方法、装置及设备，属于语音识别技术领域。该声学模型训练方法包括采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间，提高训练效率，并保证识别效率和识别准确率。

基于HMM和PNN的语音识别方法、装置及存储介质-201811148728.3
发明人：董家仁;刘广聪 -专利权人：广东工业大学
申请日： 2018-09-29 - 公布日： 2018-11-16 - 主分类号： G10L15/14
摘要：本发明公开了一种基于HMM和PNN的语音识别方法，首先获取语音信号并对语音信号进行处理，得到目标语音信号，利用隐马尔科夫模型对目标语音信号进行第一识别，得到最优识别序列，利用概率神经网络对最优识别序列进行第二识别，得到语音信号的识别结果。因此，采用本方案，将隐马尔科夫模型和概率神经网络两者结合对语音信号进行识别，能避免单一的HMM模型或神经网络带来的局限性而带来的对语音的识别精确度较低的问题。此外，本发明还公开了一种基于HMM和PNN的语音识别装置、设备及存储介质。

一种语音识别的方法和装置-201210314129.0
发明人：钱胜 -专利权人：北京百度网讯科技有限公司
申请日： 2012-08-29 - 公布日： 2018-10-16 - 主分类号： G10L15/14
摘要：本发明提供了一种语音识别的方法和装置，其中方法包括：训练解码网络时采用上下文相关的隐马尔科夫模型（HMM），在解码网络中的词尾增加静音（sil）模型并调整该sil模型前后HMM状态的声学上下文；利用所述解码网络获得待识别语音的HMM状态跳转序列。更进一步地，在解码网络中语言模型的末尾增加一条到该语言模型头部的跳转来模拟句间停顿对语言模型上下文信息的影响。通过本发明能够提高语音识别的效果。

低信噪比声场景下声音事件的识别方法-201510141907.4
发明人：李应;林巍 -专利权人：福州大学
申请日： 2015-03-30 - 公布日： 2018-04-13 - 主分类号： G10L15/14
摘要：本发明涉及一种低信噪比声场景下声音事件的识别方法，该方法把待测声音事件中的场景声音，与声音事件样本集相结合，通过GLCM‑HOSVD提取声音数据的特征，生成判别待测声音事件判别的RF。利用这种方法生成的RF，可以在特定场景中，实现低信噪比下，声音事件的识别。实验结果表明，该方法能使声音事件与场景声音信噪比为‑5dB的情况，保持平均精度73%以上声音事件的识别率。与MP，SPD提取特征的方法相比，一定程度上说，我们所提出的这种方法解决了低信噪比情况下，声音事件的识别问题。

一种基于分组统计的HMM声纹识别签到方法及系统-201510109362.9
发明人：张晶;姚敏锋;王金矿 -专利权人：广东外语外贸大学
申请日： 2015-03-12 - 公布日： 2018-02-27 - 主分类号： G10L15/14
摘要：本发明提出一种基于分组统计的HMM声纹识别签到方法及系统，首先签到客户端采集签到者的声纹信号，对声纹信号依次进行预加重、分帧、加窗和端点检测的预处理并通过网络传输至服务器，然后签到服务器端对声纹信号进行声纹特征参数提取，生成签到者分组特征参数以及生成分组模型的分组特征参数；根据分组模型的每个分组的分组特征参数与签到者声纹的分组特征参数，判断签到者是否为某个分组的成员；最后对签到者的声纹进行判定。本发明能在签到人数量较大的情况下，实现实时、高效的声纹识别签到，减少公用设备的投入，既方便又高效，本发明系统和方法的结合实现了高识别效率、高实时性的声纹识别签到。

唤醒词匹配方法、装置以及语音唤醒方法、装置-201510033800.8
发明人：李鹏 -专利权人：北京云知声信息技术有限公司
申请日： 2015-01-23 - 公布日： 2018-02-23 - 主分类号： G10L15/14
摘要：本发明公开了一种唤醒词匹配方法、装置以及语音唤醒方法、装置。该唤醒词匹配方法包括使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数；以及将由每种算法得到的分数输入分类器，根据所述分类器的输出来判断所述输入语音是否与所述唤醒词匹配。本发明提供的唤醒词匹配方法通过多种算法融合的判别方法来判断输入语音是否与唤醒词匹配，提高了唤醒词匹配的准确率。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于生成样本的方法和装置有效

专利文献下载