[发明专利]语音检测方法以及语音检测装置在审

申请号：	201910262101.9	申请日：	2019-04-02
公开（公告）号：	CN110473517A	公开（公告）日：	2019-11-19
发明（设计）人：	熊展烈	申请（专利权）人：	和硕联合科技股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26;G10L25/03;G10L25/21;G10L25/24;G10L25/78;G10L25/90
代理公司：	72003 隆天知识产权代理有限公司	代理人：	王宇航;黄艳<国际申请>=<国际公布>=
地址：	中国台***	国省代码：	中国台湾;TW
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种语音检测方法以及语音检测装置。语音检测方法包括：当检测到第一音频信号中的关键字音频信号时，开始录音；取得关键字音频信号中的多个关键字特征；依据多个关键字特征结束录音以取得第二音频信号；以及将关键字音频信号以及第二音频信号传送到语音转文字模块。
搜索关键词：	音频信号关键字特征语音检测语音检测装置开始录音字模块录音语音检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语音检测方法，适于提供检测到的语音信号给一语音转文字模块，其特征在于，该语音检测方法包括：/n当检测到一第一音频信号中的一关键字音频信号时，开始录音；/n取得该关键字音频信号中的多个关键字特征，其中该些关键字特征包括一结束特征；/n依据该结束特征结束录音以取得一第二音频信号；以及/n将该关键字音频信号以及该第二音频信号传送到该语音转文字模块。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于和硕联合科技股份有限公司，未经和硕联合科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910262101.9/，转载请声明来源钻瓜专利网。

上一篇：语音合成方法、装置以及电子设备
下一篇：语音音素识别方法和装置、存储介质及电子装置

同类专利

一种远场语音识别方法、语音识别模型训练方法和服务器-201810775407.X
发明人：薛少飞 -专利权人：阿里巴巴集团控股有限公司
申请日： 2018-07-16 - 公布日： 2020-02-14 - 主分类号： G10L15/02
摘要：本申请提供了一种远场语音识别方法、语音识别模型训练方法和服务器，其中，该远场语音识别方法包括：获取语音数据；确定所述语音数据是否为远场语音数据；在确定所述语音数据为远场语音数据的情况下，通过语音识别模型对所述语音数据进行识别，其中，所述语音识别模型是根据通过语音数据的时间维度信息和频率维度信息，对所述语音数据的语音特征进行频带能量规整后得到的语音特征进行训练后得到的。利用本申请实施例提供的技术方案，因为在对频带能量规整过程中引入了时间维度信息和频率维度信息，从而可以弱化时间和频率对语音识别准确度的影响，基于该语音识别模型进行远程语音识别，可以有效提升识别准确率，从而达到了有效提升语音识别模型的识别准确率的技术效果。

一种针对巴基斯坦口音英语的飞机座舱指令识别装置-201810781122.7
发明人：李曜;夏小春 -专利权人：上海航空电器有限公司
申请日： 2018-07-17 - 公布日： 2020-02-14 - 主分类号： G10L15/02
摘要：本发明公开一种针对巴基斯坦口音英语的飞机座舱指令识别装置，主要由语音采集模块、英文指令识别模块、输入输出模块、音频数据存储模块以及模型更新模块组成。音频数据存储模块用于接收来自语音采集模块的英文指令音频信号及来自英文指令识别模块的所述英文指令识别结果，在非模型更新状态下结合识别置信度对英文指令音频信号及英文指令识别结果作出保存或丢弃的判断进而生成待更新数据。模型更新模块在模型更新状态下接收来自所述音频数据存储模块的所述待更新数据并且根据所述待更新数据更新所述英文指令识别模块中内建的英文指令识别引擎所使用的匹配模型。本发明的优点在于：提高巴基斯坦口音英文在通用的英文模型和识别引擎下的准确率。

基于人工智能的问答评分方法、装置、设备及存储介质-201911051629.8
发明人：黄江泉;林炳怀;方俊 -专利权人：腾讯科技(深圳)有限公司
申请日： 2019-10-31 - 公布日： 2020-02-14 - 主分类号： G10L15/02
摘要：本发明提供了一种基于人工智能的问答评分方法、装置、设备及存储介质，涉及人工智能技术，方法包括：接收用户回答问题的音频内容，进行语音识别得到音频内容的音频特征和文本内容；基于音频特征、文本内容以及参考文本，从至少一个维度提取对应音频内容的发音质量特征，基于提取的发音质量特征确定表征音频内容的发音质量的发音评分；对文本内容以及参考文本进行相似度分析，确定表征音频内容的正确度的相似度评分，对文本内容进行语法检测，确定表征音频内容的语法质量的语法评分；将发音评分，相似度评分以及语法评分进行融合处理，确定对应音频内容的综合评分。通过本发明，能够解决仅使用关键词检测来评分所导致评分不准确和不全面的问题。

基于支持向量机的语音识别方法、装置、设备及存储介质-201911120425.5
发明人：褚孝鹏;李萌;赵辰;龚政;邱惠昌 -专利权人：天津光电通信技术有限公司
申请日： 2019-11-15 - 公布日： 2020-02-14 - 主分类号： G10L15/02
摘要：本发明实施例公开了一种基于支持向量机的语音识别方法、装置、设备及存储介质，其中，所述方法包括：从语音数据中提取梅尔频率倒谱系数的特征量；对所述语音数据进行去噪处理；对所述特征量根据贡献量进行加权处理；获取所述语音数据中的语音时序特征，并与经过加权处理后的特征量进行组合；将组合后的特征量输入训练完成后的语音识别支持向量机，得到语音识别结果。不仅可以对干扰信息实现过滤，增强真实语音信号，同时考虑到发声的特征，能够在复杂的外界环境下增强对语音的识别。

基于Fisher混合特征和神经网络的语音鉴别方法和系统-201911130906.4
发明人：苏兆品;季仁杰;葛昭旭;陈清;郑宁军;李顺宇;张国富;岳峰 -专利权人：合肥工业大学
申请日： 2019-11-19 - 公布日： 2020-02-11 - 主分类号： G10L15/02
摘要：本发明提供一种于Fisher混合特征和神经网络的语音鉴别方法和系统，涉及语音识别技术领域。本发明首先获取待测语音和包括智能合成语音数据与自然人声数据库数据在内的语音样本集合，再获取语音样本集合中语音样本的MFCC特征和CQCC特征；然后基于Fisher准则、MFCC特征和CQCC特征获取语音样本的MFCC‑CQCC混合特征；基于混合特征和预设的神经网络获取语音鉴别模型；最后基于语音鉴别模型判断待测语音是智能合成语音还是自然人声。本发明在语音特征的选取上，没有选取单一特征，而是选用了基于Fisher准则的MFCC‑CQCC混合特征，该特征有机地结合了MFCC和CQCC特征，可以有效地鉴别多种算法合成的语音，运用该混合特征训练神经网络获取语音鉴别模型，能有效提高语音鉴别模型的准确率。

语音识别方法及其装置和语音识别系统-201810848234.X
发明人：陈展;齐昕 -专利权人：杭州海康威视数字技术股份有限公司
申请日： 2018-07-27 - 公布日： 2020-02-07 - 主分类号： G10L15/02
摘要：本发明公开了一种语音识别装置及其装置和语音识别系统，该方法包括：对获取的音频信号进行特征提取，得到多个语音特征值；将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词。该方法可以降低语音识别的计算量，降低应用该识别方法的硬件要求。

一种基于便携式智能终端的智能语音降噪算法-201611082295.7
发明人：陈霏;樊明福 -专利权人：天津大学
申请日： 2016-11-30 - 公布日： 2020-02-07 - 主分类号： G10L15/02
摘要：本法公开了一种基于便携式智能终端的智能语音降噪算法，用于助听器、数据云端和智能终端之间的通信，助听器从外界接收带噪语音信号并传输到智能终端，智能终端通过智能语音降噪算法应用处理后一部分带噪语音信号上传到数据云端，另一部分输出到助听器进行进一步的处理，最后转化为人耳能够识别的语音信号；此外，本发明应用在智能终端(包括手机、平板电脑和智能穿戴设备等)上还能为云端数据库提供新的数据，进一步训练得到更加准确的网络，然后返回至智能终端实现更新升级。

一种识别特征声音的方法和装置-201810801712.1
发明人：李俊玲;王博 -专利权人：北京京东金融科技控股有限公司
申请日： 2018-07-20 - 公布日： 2020-02-04 - 主分类号： G10L15/02
摘要：本发明公开了一种识别特征声音的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：对待检测声音数据进行拆分处理，并截取出至少一段单元声音数据；从所述至少一段单元声音数据中，确定出属于特征声音的单元声音数据；根据所述属于特征声音的单元声音数据之间的时间距离，对其进行合并以得到特征声音片段。该方法能够提高声音识别的准确性，还可以进一步根据每段单元声音数据的起始时间和结束时间，准确的确定出每段特征声音片段的起始时间和结束时间。

一种语音情绪识别方法、装置以及相关设备-201911082413.8
发明人：谌明 -专利权人：浙江同花顺智能科技有限公司
申请日： 2019-11-07 - 公布日： 2020-02-04 - 主分类号： G10L15/02
摘要：本申请公开了一种语音情绪识别方法，包括根据接收到的呼叫请求与呼叫请求端进行智能对话，获得来电语音信息；对来电语音信息进行文字转换获得文本信息，并对文本信息进行情感分析获得情感特征；对来电语音信息进行特征提取，获得语气特征；对情感特征和所述语气特征进行整合，获得组合特征词；在预设情绪信息库中匹配获得组合特征词对应的情绪类别；输出情绪类别；该语音情绪识别方法可以根据来电信息获取更多更为有效的数据信息，更加便于用户根据反馈信息对来电进行处理，满足了用户对电话通信服务的智能化需求，进一步提高了用户体验。本申请还公开了一种语音情绪识别装置、电子设备及计算机可读存储介质，均具有上述有益效果。

基于设备工作状态切换的多神经网络模型语音识别方法-201810705470.6
发明人：何云鹏 -专利权人：成都启英泰伦科技有限公司
申请日： 2018-07-02 - 公布日： 2020-01-31 - 主分类号： G10L15/02
摘要：基于设备工作状态切换的多神经网络模型语音识别方法,包括专用神经网络模型训练过程，所述专用神经网络模型训练过程针对设备的特定工作状态进行训练；所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤，语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。本发明在设备的不同工作状态下，导入其对应的不同的神经网模型参数进行计算，在关机状态或设备噪声不强的情况下采用通用网络模型，在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算，大幅提升了终端语音识别性能。

基于语音信号的跨模态生物特征识别方法及系统-201910981216.3
发明人：潘成华 -专利权人：江苏网进科技股份有限公司
申请日： 2019-10-16 - 公布日： 2020-01-31 - 主分类号： G10L15/02
摘要：本发明提供一种语音信号的跨模态生物特征识别方法，其步骤：S1:获取包括待识别语音信号、多人的多模态生物特征信息；S2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；S3：确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。通过输入为语音信号，系统凭借输入的语音信号在若干个候选人的其他模态的生物特征信号中，识别出该语音信号发音人的其他模态的生物特征信息。

用于获取信息的方法及装置-201811198500.5
发明人：钱胜;王知践;李俊博 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2018-10-15 - 公布日： 2020-01-24 - 主分类号： G10L15/02
摘要：本申请实施例公开了用于获取信息的方法。该方法的一具体实施方式包括：从待处理语音信号中获取语音特征音频序列，上述语音特征音频序列用于表征待处理语音信号对应的文字；将上述语音特征音频序列导入拼音识别模型，得到对应上述语音特征音频序列的拼音信息，上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息，上述拼音单元用于识别单个文字；根据上述拼音信息查找对应上述待处理语音信号的文字信息。该实施方式降低了获取拼音信息的数据处理量和存储空间，提高了获取文字信息的准确性。

语音唤醒方法、装置及系统、终端和计算机可读存储介质-201910966762.X
发明人：崔凡;李深;雷欣;李志飞 -专利权人：出门问问信息科技有限公司
申请日： 2019-10-12 - 公布日： 2020-01-21 - 主分类号： G10L15/02
摘要：本发明公开了一种语音唤醒方法、装置及系统、终端和计算机可读存储介质，该方法包括：实时采集声音信号；提取所述声音信号的音频特征；将所述音频特征输入第一唤醒词验证模型；通过所述第一唤醒词验证模型输出第一置信度；基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；接收所述第二终端对所述已缓存信号集合的验证结果；在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。通过本发明的技术方案，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，加快了语音唤醒的速度，提升了用户体验。

感情推测系统以及计算机可读介质-201910170895.6
发明人：罗旋 -专利权人：富士施乐株式会社
申请日： 2019-03-07 - 公布日： 2020-01-17 - 主分类号： G10L15/02
摘要：本发明提供一种感情推测系统以及计算机可读介质，基于说话语音的说话者感情推测技术，其处理负载小，难以受到杂音等的影响，且精度高。本发明感情推测系统包括：特征量提取部，对所收录的说话语音进行分析，以提取预定的特征量；元音区间确定部，基于由特征量提取部所提取的特征量来确定发出元音的区间；以及感情推测部，基于由元音区间确定部所确定的元音区间的特征量来推测说话者的感情。

语音识别方法及其装置-201910869774.0
发明人：刘博卿;王健宗;贾雪丽 -专利权人：平安科技(深圳)有限公司
申请日： 2019-09-16 - 公布日： 2020-01-17 - 主分类号： G10L15/02
摘要：本申请提出了一种语音识别方法及其装置，涉及人工智能技术领域。其中，方法包括：获取待识别的目标语音，提取每一帧目标语音对应的波形特征和音调特征。将每一帧目标语音对应的波形特征和音调特征顺序输入训练完的语音识别模型中。其中，语音识别模型包括编码子模型，第一解码子模型和第二解码子模型，编码子模型包括卷积神经网络和双向长短期记忆网络，第一解码子模型包括语音‑文字匹配单元，第二解码子模型包括文字上下文匹配单元，语音‑文字匹配单元包括CTC损失函数和注意力模型。根据语音识别模型的输出，生成待识别的目标语音对应的文字。由此，结合了语音‑文字匹配和文字上下文匹配，提高了语音识别的准确度。

一种语音识别方法-201510235887.7
发明人：常静雅;陶智;张晓俊;赵鹤鸣;顾济华;吴迪 -专利权人：苏州大学
申请日： 2015-05-11 - 公布日： 2020-01-17 - 主分类号： G10L15/02
摘要：本发明提供一种语音识别方法，该方法包括特征提取、特征优化和利用分类器进行识别三个步骤，所述特征提取是通过采用多尺度连续小波变换对语音进行时频分析，同时对沿尺度轴方向的小波系数进行高斯混合建模得到特征参数GCWT，然后对嗓音进行识别；所述特征优化是采用动态加权局部线性嵌入方法DWLLE对特征参数GCWT进行降维处理。本发明提出的特征参数GCWT优于传统的特征参数MFCC，动态加权局部线性嵌入方法DWLLE降维效果优于LLE。

中文热词检测方法和装置-201510031181.9
发明人：雷欣;李倩 -专利权人：上海羽扇智信息科技有限公司
申请日： 2015-01-21 - 公布日： 2020-01-17 - 主分类号： G10L15/02
摘要：本发明提供了一种中文热词检测方法和装置。该方法包括：收集用户语音的连续的多个片段；参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；基于所述最大概率检测在用户语音中是否有目标中文热词。本发明能够支持以字为分割单位的中文热词检测，并保证检测出的热词与目标中文热词中的字的顺序一致。

语音的处理方法及装置、存储介质、电子设备-201910540082.1
发明人：聂镭;李睿;聂颖 -专利权人：龙马智芯(珠海横琴)科技有限公司
申请日： 2019-06-21 - 公布日： 2020-01-17 - 主分类号： G10L15/02
摘要：本发明提供了一种语音的处理方法及装置、存储介质、电子设备，其中，该方法包括：将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素，计算所述预测音素与所述语音的标准音素之间的音素相似度，基于所述音素相似度确定所述语音是否满足采集要求，可见，对于语音的采集不需要先进行语音识别得到该语音的文本信息，而是通过训练的音素预测模型确定语音是否满足采集要求，从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息，由于语音识别不准确，导致语音样本收集效率低、成本高的技术问题，达到了语音样本收集效率高和低成本的效果。

基于情绪识别的终端控制方法和装置-201910808505.3
发明人：戴广宇;杨晟 -专利权人：平安科技(深圳)有限公司
申请日： 2019-08-29 - 公布日： 2020-01-10 - 主分类号： G10L15/02
摘要：本发明实施例提供了一种基于情绪识别的终端控制方法和装置。本发明涉及人工智能领域，该方法包括：采集目标用户的语音数据；将语音数据输入预先建立的语音情绪分类器；将语音数据转换为文本数据，将文本数据输入预先建立的文本情绪分类器；根据文本情绪分类器和语音情绪分类器分别输出的每个类别的情绪的置信度确定目标用户的情绪识别结果；根据情绪识别结果控制目标终端的操作。本发明实施例提供的技术方案能够解决用户移动通讯过程中无法了解自己的情绪的问题。

基于改进注意力机制并结合语义的语音信息识别方法及系统-201910905808.7
发明人：曹叶文;陈炜青;王德强 -专利权人：山东大学
申请日： 2019-09-24 - 公布日： 2020-01-10 - 主分类号： G10L15/02
摘要：本公开提供了一种基于改进注意力机制并结合语义的语音信息识别方法及系统，对原始语音数据进行预处理，进行加窗分帧，并对每一帧提取声学特征；构建LSTM模型，通过改进注意力机制优化LSTM模型，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息，得到语音通道信息特征；对于原始语音数据进行自动语音识别，得到对话的文本数据，对于得到的文本数据行进词向量化预处理，对于词向量化后的文本序列，用双层LSTM与全连接层得到高层深度学习特征，得到语义通道信息特征；融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果。

一种公共场所异常声音特征提取及识别方法-201610674982.1
发明人：李伟红;田真真;龚卫国;王伟冰 -专利权人：重庆大学
申请日： 2016-08-16 - 公布日： 2020-01-10 - 主分类号： G10L15/02
摘要：本发明涉及一种公共场所异常声音的提取及识别方法，对极点对称模态分解(ESMD)进行改进，简称D‑ESMD，其特点是：在公共场所异常声音中加入随机T分布序列信号，减小公共场所背景噪声对异常声音特征提取的影响；针对原始ESMD在分解异常声音时，分解效果欠佳的问题，提出对称中点插值替代极值中点奇偶插值方法，提高异常声音分解效率与识别率；针对原始ESMD在有效分解模态选择上的缺陷，提出基于排列熵算法对ESMD分解得到的模态进行复杂性检测，自适应得到异常声音有效模态分量。利用本发明可以充分描述异常声音的特征，并得到较好的分类识别结果，更能够准确提取异常声音的特征，并且对环境背景噪声具有较好的鲁棒性。

公共场所异常声音特征提取方法-201610680298.4
发明人：李伟红 -专利权人：重庆大学
申请日： 2016-08-17 - 公布日： 2020-01-10 - 主分类号： G10L15/02
摘要：本发明涉及公共场所异常声音特征提取方法，属于音频信号处理领域。声音特征提取方法基于自适应噪声的完备总体局部均值分解CELMDAN，引入分解嵌套思想。利用CELMDAN方法分解公共场所异常声音信号，得到一系列乘积函数(PF)分量。并将各PF分量与原始异常声音信号的能量比值作为其特征向量。最后输入支持向量机(SVM)进行分类。相比于目前常用的特征提取方法，本发明提出的CELMDAN方法更能够准确提取异常声音的特征，并且对环境背景噪声具有较好的鲁棒性。

一种机车车载音频智能分析管理方法-201810685925.2
发明人：韩群生;满勇;陶睿;师振新;康振祺;付年强 -专利权人：山西智济电子科技有限公司
申请日： 2018-06-28 - 公布日： 2020-01-07 - 主分类号： G10L15/02
摘要：本发明公开了一种机车车载音频智能分析管理方法，包括以下步骤：(1)建立标准音频模型；(2)在线音频采集并识别和比对；(3)实现在线提醒报警；在预定时间内，控制中心不能收到步骤(2)所述在线语音识别返回的正确信息，自动报警。本发明通过智能设备和智能识别技术，实现对机车乘务员事前管理、在线监督提醒、事后分析追溯和大数据智能分析，实现管理者与被管理者之间的有效对接、全面覆盖和实时管理，实现机务段安全管理的创新。

用于自动语音识别的时域特征提取的方法和系统-201910527374.1
发明人：方水英;穆罕默德·凯拉;索姆纳特·保罗;查尔斯·奥古斯丁;特尔博·马吉姆德;林佑泽;托比亚斯·博克雷;戴维·皮尔斯 -专利权人：英特尔公司
申请日： 2019-06-18 - 公布日： 2020-01-07 - 主分类号： G10L15/02
摘要：本公开涉及用于自动语音识别的时域特征提取的方法和系统。一种系统、制品、和方法提供了用于自动语音识别的时域特征提取。

一种基于歌词歌声对齐的唱歌评分方法-201910890520.7
发明人：林伟伟;胡康立 -专利权人：华南理工大学
申请日： 2019-09-20 - 公布日： 2020-01-07 - 主分类号： G10L15/02
摘要：本发明公开的一种基于歌词歌声对齐的唱歌评分方法，包含以下顺序的步骤：歌曲录制；歌声伴奏分离、噪声去除；提取基音频率以及振幅；以句子为单位，歌词与歌声对齐；分割对齐后的歌声中每个字的基音频率；计算基音频率相似性得分；根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算节奏得分；归一化用户歌声和标准歌声的振幅；计算振幅相似性得分；对基音频率得分、节奏得分、振幅得分乘以权值系数并相加，计算歌曲的综合得分。本发明的唱歌评分方法，减少了伴奏以及噪声对歌声评价的影响；合理利用歌词的标签信息，使得评价用户的基音频率以及节奏更为准确；多方面评价用户歌曲，让歌曲评分结果更加客观全面。

用于语音识别系统的增益处理方法及装置-201510729439.2
发明人：徐杨飞;魏建强;崔玮玮 -专利权人：百度在线网络技术(北京)有限公司
申请日： 2015-10-30 - 公布日： 2020-01-07 - 主分类号： G10L15/02
摘要：本申请提出一种用于语音识别系统的增益处理方法和装置，其中，该方法包括：从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；应用期望增益对第一音频数据进行幅度调整。实现了对音频数据进行自动的增益调整，使得接收到的音频信号的幅值大于语音识别系统的门限值，且与训练数据相匹配，提高了语音识别系统的稳健性。

韵律标注方法、装置和设备-201810988973.9
发明人：孟君;曹琼;廖晓玲;郝玉峰 -专利权人：北京海天瑞声科技股份有限公司
申请日： 2018-08-28 - 公布日： 2020-01-07 - 主分类号： G10L15/02
摘要：本发明提供一种韵律标注方法、装置和设备。其中，韵律标注方法包括：获取待标注文本的语音数据；根据语音数据，确定语音数据中的韵律信息，韵律信息用于指示语音数据中的停顿时长；根据语音数据中的韵律信息，对待标注文本进行韵律符号标注。本发明提供的韵律标注方法，提升了韵律标注的效率和准确性。

基于动态剪枝束宽预测的语音识别效率优化方法-201610214520.1
发明人：刘俊华;凌震华;戴礼荣 -专利权人：中国科学技术大学
申请日： 2016-04-06 - 公布日： 2020-01-03 - 主分类号： G10L15/02
摘要：本发明公开了一种基于动态剪枝束宽预测的语音识别效率优化方法，该方法针对传统语音解码剪枝算法中存在较多冗余路径，以及已有改进算法中剪枝有效性不足问题，提出基于声学特征进行动态剪枝束宽的预测思路，并根据实现复杂度的不同，提出两种具体的建模方式和相应的参数估计训练方法，从而提高了语音识别解码效率。

一种语音操作输入方法及电子设备-201410509616.1
发明人：章丹峰;靳玉茹;钟荣标 -专利权人：联想(北京)有限公司
申请日： 2014-09-28 - 公布日： 2019-12-24 - 主分类号： G10L15/02
摘要：本发明公开一种语音操作输入方法及电子设备。所述方法应用于具有声音采集单元、第一处理单元以及第二处理单元的电子设备，所述方法包括：通过所述声音采集单元获取声音信息；所述第一处理单元识别所述声音信息；当所述声音信息符合预定条件时，提取所述声音信息的特征；根据所述声音信息的特征生成信息集合；将所述信息集合发送至所述第二处理单元；所述第二处理单元执行与所述信息集合对应的命令。采用本发明的语音操作输入方法及电子设备，可以无需对支持语音操作的应用程序进行触发，就可以直接输入语音操作，即使电子设备处于待机状态时，也可以输入语音操作。

语音辨识装置及语音辨识方法-201510059977.5
发明人：杜博仁;张嘉仁;曾凯盟 -专利权人：宏碁股份有限公司
申请日： 2015-02-05 - 公布日： 2019-12-24 - 主分类号： G10L15/02
摘要：本发明提供一种语音辨识装置及语音辨识方法。依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。本发明可有效地辨识出语音信号是否为辅音信号。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音检测方法以及语音检测装置在审

专利文献下载