[发明专利]语音唤醒的优化装置及方法在审

申请号：	201910095418.8	申请日：	2019-01-30
公开（公告）号：	CN109817200A	公开（公告）日：	2019-05-28
发明（设计）人：	冯大航;陈孝良;苏少炜;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/30;G10L25/51
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	任岩
地址：	100086 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种语音唤醒的优化装置，包括：终端，包括第一唤醒模型，用于对输入所述第一唤醒模型的唤醒语音，进行第一次唤醒，确定第一唤醒结果，并将所述唤醒语音输出至云端；云端，包括第二唤醒模型，用于对输入所述第二唤醒模型的所述唤醒语音进行第二次唤醒，确定第二唤醒结果；以及确定模块，位于所述终端或者所述云端内，用于根据所述第一唤醒结果和第二唤醒结果，确定所述唤醒语音的最终唤醒结果。本发明对终端进行第一次唤醒以及对云端进行第二次唤醒，降低了误唤醒的概率，保证了唤醒语音的唤醒率。
搜索关键词：	唤醒语音云端优化装置终端语音输出概率保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语音唤醒的优化装置，包括：终端，包括第一唤醒模型，用于对输入所述第一唤醒模型的唤醒语音，进行第一次唤醒，确定第一唤醒结果，并将所述唤醒语音输出至云端；云端，包括第二唤醒模型，用于对输入所述第二唤醒模型的所述唤醒语音进行第二次唤醒，确定第二唤醒结果；以及确定模块，位于所述终端或者所述云端内，用于根据所述第一唤醒结果和第二唤醒结果，确定所述唤醒语音的最终唤醒结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司，未经北京声智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910095418.8/，转载请声明来源钻瓜专利网。

上一篇：一种风扇语音控制系统的语音识别方法
下一篇：一种语音控制方法、装置、存储介质及语音设备

同类专利

基于深层神经网络的婴儿啼哭声识别方法及系统-201310347807.8
发明人：景亚鹏;张峰;吴义坚 -专利权人：上海掌门科技有限公司
申请日： 2013-08-09 - 公布日： 2019-11-12 - 主分类号： G10L15/06
摘要：本发明提供了一种基于深层神经网络的婴儿啼哭声识别方法及系统，所述方法包括采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，能够提高对婴儿啼哭声的识别率。

一种基于语音识别技术的智能家居语音交互系统及方法-201910706095.1
发明人：陆成湘 -专利权人：格音智能科技（上海）有限公司
申请日： 2019-08-01 - 公布日： 2019-11-08 - 主分类号： G10L15/06
摘要：本发明公开了一种基于语音识别技术的智能家居语音交互系统及方法，包括单板机系统、红外信号接收器、红外信号发射器、麦克风、操作界面和云服务器，该系统允许用户定义和创建自己喜欢的语音命令和相对应的系统响应。无需对系统做任何设置和调整，用户可以用任何语种、地方方言或自己的习惯用语作为语音命令来训练系统。对语音命令的用词、语序没有任何要求，完全由用户按自己的爱好，自由定义。系统对每一个用户的语音命令仅需从该用户收集一个他的语音样本，来完成语音模型训练。从而该系统能够让个人或小人数群体的每个用户用自定义的语音命令，来执行命令功能。

一种基于人工智能的垃圾分类语音识别系统-201910722667.5
发明人：李奇楠 -专利权人：上海上班族电子商务有限公司
申请日： 2019-08-06 - 公布日： 2019-11-08 - 主分类号： G10L15/06
摘要：本发明公开了一种基于人工智能的垃圾分类语音识别系统。本发明中，使用者可以通过语音或者文字的方式往该系统中输入指令，该系统通过获取到使用者输入的指令，通过自然语言处理单元对使用者输入的指令进行分析和处理，然后经过人工智能模型进行匹配，最后通过智能引导单元将判断结果告知给使用者，便于使用者快速准确的进行垃圾分类；此外，该系统中还安装了深度学习单元，对使用者输入的指令进行深度学习，可以不断的完善垃圾分类数据库，在使用的过程中提高该系统对垃圾分类识别的范围，同时还可以通过分类模式超参数适配多种垃圾分类规则，使该系统适用于不同垃圾分类规则的城市。

一种人工智能语音识别系统-201910718445.6
发明人：王军;黄鹏;鲍曦 -专利权人：安徽赛福贝特信息技术有限公司
申请日： 2019-08-05 - 公布日： 2019-11-05 - 主分类号： G10L15/06
摘要：本发明公开了一种人工智能语音识别系统，包括语言模型训练模块、声学模型训练模块和语音解码处理模块，所述语言模型训练模块和所述声学模型训练模块分别与所述语音解码处理模块连接并完成模型训练和服务支持，其中；所述语言模型训练模块包括词法分析单元、句法分析单元、语义分析单元、结构分析单元和目标语单元，所述词法分析单元与所述句法分析单元连接。有益效果：通过集成语言模型训练模块和声学模型训练模块实现双通道信息数据库，通过采集语音信息传输至语音解码处理模块实现文字信息以及语音信息的输出，抗干扰性能好，而且提取识别精确度高，能针对含有杂音的原音以及声波较弱的原音，适应性强。

一种语音识别方法-201910771339.4
发明人：张骏鹏 -专利权人：河海大学
申请日： 2019-08-20 - 公布日： 2019-11-05 - 主分类号： G10L15/06
摘要：本发明公开了一种语音识别方法，包括LSTM语音系统的搭建；语音数据采集及采样；训练；识别等步骤。本发明方法所搭建的语音识别系统识别率都比较高，且LSTM模型所搭建的语音识别系统识别精度接近100％，本发明的LSTM模型更为实用。

提供预先计算的热词模型-201580010535.X
发明人：马修·谢里菲 -专利权人：谷歌有限责任公司
申请日： 2015-05-13 - 公布日： 2019-10-29 - 主分类号： G10L15/06
摘要：方法、系统和设备，包括在计算机存储介质上编码的计算机程序，用于：对于多个词或子词中的每个词或子词，获得与讲出该词或子词的多个用户相对应的音频数据；对于多个词或子词中的每个词或子词，基于用于该词或子词的音频数据，训练用于该词或子词的预先计算的热词模型；从计算装置接收候选热词；识别与候选热词相对应的一个或多个预先计算的热词模型；以及将所识别的预先计算的热词模型提供给计算装置。

语音识别中的正则化口音自适应方法-201610971766.3
发明人：陶建华;易江燕;温正棋;刘斌 -专利权人：中国科学院自动化研究所
申请日： 2016-10-28 - 公布日： 2019-10-22 - 主分类号： G10L15/06
摘要：本发明公开了一种语音识别中的正则化口音自适应方法，所述方法包括下述步骤：步骤S100，对采集到的口音数据进行特征参数提取；步骤S101，利用提取的所述特征参数，训练口音独立的基线声学模型；步骤S102，利用提取的所述特征参数，用分类器对口音数据识别出其口音类别；步骤S103，计算软化概率分布；步骤S104，正则化目标函数；步骤S105，利用正则化的损失函数对所述口音独立的基线声学模型进行自适应，生成口音依赖的声学模型。本发明中，通过对声学模型进行正则化自适应，提高了带口音的语音识别的准确率。

完整语言序列的语言建模-201380076599.0
发明人： C.I.切尔巴;H.萨克;J.沙尔克威克 -专利权人：谷歌有限责任公司
申请日： 2013-11-19 - 公布日： 2019-10-22 - 主分类号： G10L15/06
摘要：提供方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于对完整语言序列的语言建模。访问指示语言序列的训练数据，确定每个语言序列在训练数据中出现的次数的计数。选择语言序列的真子集，并且训练语言模型的第一组件。第一组件包括用于向被选语言序列指派评分的第一概率数据。基于训练数据来训练语言模型的第二组件，其中第二组件包括用于向被选语言序列中未包括的语言序列指派评分的第二概率数据。生成相对于第一概率数据归一化第二概率数据的调整数据，并且存储第一组件、第二组件和调整数据。

语音检索方法、装置、计算机设备及存储介质-201910492599.8
发明人：黄锦伦;陈磊 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-06 - 公布日： 2019-10-18 - 主分类号： G10L15/06
摘要：本发明公开了语音检索方法、装置、计算机设备及存储介质。该方法包括：接收训练集语料库，将训练集语料库输入至初始N‑gram模型进行训练，得到N‑gram模型；接收待识别语音，通过N‑gram模型对待识别语音进行进行识别，得到识别结果；将识别结果进行分词，得到与识别结果对应的语句分词结果；根据语句分词结果进行词法分析，得到语句分词结果对应的名词词性关键词；以及在预先存储的推荐语料库中搜索与名词性关键词的相似度超出预设的相似度阈值的语料，以得到检索结果。该方法采用语音识别技术，通过对语音识别的结果进行词法分析后得到名词词性关键词，实现根据名词词性关键词在推荐语料库中更准确的获取检索结果。

用于控制页面的方法和装置-201711237766.1
发明人：王文宇 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2017-11-30 - 公布日： 2019-10-18 - 主分类号： G10L15/06
摘要：本申请实施例公开了用于控制页面的方法和装置。该方法的一具体实施方式包括：接收终端发送的、用户从终端输入的语音信息，其中，终端用于显示目标页面，以及用于响应于接收到用户针对目标页面的语音控制请求，接收语音信息；对语音信息进行语音识别，生成文字信息；对文字信息进行解析，生成操作指令；向终端发送操作指令，以便终端对目标页面执行操作指令所指示的操作。该实施方式实现了基于语音的页面控制。

基于多示例学习的自动语音识别困难样本挖掘方法-201910625555.8
发明人：韩纪庆;薛嘉宾;郑铁然;郑贵滨 -专利权人：哈尔滨工业大学
申请日： 2019-07-11 - 公布日： 2019-10-15 - 主分类号： G10L15/06
摘要：本发明提供基于多示例学习的自动语音识别困难样本挖掘方法，属于语音信号处理技术领域。本发明首先收集语料数据建立数据集、选取训练数据；然后对训练集进行人工标注；使用标注好的训练集建立困难样本检测模型，并对其进行训练；再用训练好的困难样本检测模型在剩余集合上挖掘候选困难样本；最后进行困难样本筛选与标注：对检测到的候选困难样本进行人工确认，同时将人工确认后的困难样本进行标注。本发明解决了现有自动语音识别技术需要人工标注大量数据集的问题。本发明可用于语音识别系统对新领域的快速自适应。

一种适用于回声消除系统的语音状态检测方法-201610519040.6
发明人：王珂;明萌;纪红;李曦;张鹤立 -专利权人：北京邮电大学
申请日： 2016-07-04 - 公布日： 2019-10-11 - 主分类号： G10L15/06
摘要：本发明是一种适用于回声消除系统的语音状态检测方法，涉及基于IP网络的语音交互技术领域。本发明利用噪声训练样本和语音训练样本构造支持向量机(SVM)分类器，待检测信号是分块后的远端和近端信号，使用构造好的基于高斯混合模型的SVM分类器对本分块远端信号进行VAD判决，如果判断结果为无语音，停止滤波器更新和滤波，直接输出近端语音信号，如果判断远端有语音，进行双端通话判决；当处于双端通话时，停止滤波器系数更新，对近端信号进行滤波；否则，根据远端信号进行滤波器系数更新和滤波。本发明提高了语音活动性检测的准确性，避免将双端静音状态误判为双端通话状态，防止了在没有参考信号的情况下滤波器的错误更新和滤波。

语音训练数据生成方法、装置、设备及可读存储介质-201910432661.4
发明人：彭捷 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-23 - 公布日： 2019-10-08 - 主分类号： G10L15/06
摘要：本发明涉及数据采集技术领域，公开了一种语音训练数据生成方法、装置、设备及可读存储介质，语音训练数据生成方法包括：获取音频文件以及所述音频文件对应的原文文本；对所述音频文件进行静音点检测，确定所述音频文件的静音点；根据所述静音点，将所述音频文件拆分为若干个音频片段文件；通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；从所述原文文本中确定所述识别结果对应的文本片段；将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

一种用于检测真人用户的方法及系统-201910524253.1
发明人：王磊 -专利权人：浙江百应科技有限公司
申请日： 2019-06-18 - 公布日： 2019-10-08 - 主分类号： G10L15/06
摘要：本发明涉及通讯领域，尤其涉及一种用于检测真人用户的方法及系统，包括以下步骤：S1：建立话术知识库，所述话术知识库包括：问题知识库及对应的答案知识库；S2：建立与用户的通信，选择问题知识库中的问题对用户进行提问，并获取用户的语音信息；S3：将语音信息转化为文字信息，并提取其中的关键字信息；S4：将文字信息中的关键字信息与该问题所对应的答案知识库中的答案进行对比，得到该用户是否为真人的第一检测结果。本发明具备以下有益效果：与用户之间建立通信，对用户进行提问，并获取用户回答的语音信息，根据获取的语音信息来对该用于是否为真人进行判断。

基于文本情感分类的语音识别控制系统-201910638620.0
发明人：李剑峰 -专利权人：湖南检信智能科技有限公司
申请日： 2019-07-16 - 公布日： 2019-10-08 - 主分类号： G10L15/06
摘要：本发明公开了一种基于文本情感分类的语音识别控制系统，包括文本预处理模块，用于剔除html标签，并进行数据清洗识别出情感词汇，将识别出的感词汇分类导入文本情感模板；文件上传模块，用于将文本情感模板和语音文件上传到服务器；在语音识别服务器中设置有语音识别程序模块，语音识别程序模块包括文件查询接口模块、特征提取模块和解码器模块。本发明提高了语音识别的准确率，降低了语音识别系统的复杂性，保障识别准确度的同时降低了实现成本。

混合语音识别-201580016161.2
发明人：俞栋;翁超;M·L·塞尔特泽尔;J·德罗波 -专利权人：微软技术许可有限责任公司
申请日： 2015-03-19 - 公布日： 2019-10-01 - 主分类号： G10L15/06
摘要：所要求的主题包括一种用于识别来自源的混合语音的系统和方法。该方法包括训练第一神经网络以识别来自混合语音样本的讲话者所讲出的具有较高水平的语音特征的语音信号。该方法还包括训练第二神经网络以识别来自混合语音样本的讲话者所讲出的具有较低水平的语音特征的语音信号。此外，该方法包括通过在考虑特定帧是语音特征的切换点的概率的情况下对观察到两个语音信号的联合可能性进行优化而利用该第一神经网络和第二神经网络对该混合语音样本进行解码。

语音识别方法、模型的训练方法、装置、设备及存储介质-201910522750.8
发明人：王健宗;魏文琦;贾雪丽 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-17 - 公布日： 2019-09-27 - 主分类号： G10L15/06
摘要：本申请涉及生物识别领域，具体使用了转化神经网络实现活体检测，并公开了一种语音识别方法、模型的训练方法、装置、设备及存储介质，所述训练方法包括：获取训练拼音语料以及所述训练拼音语料对应的数据标签；对所述训练拼音语料进行分词处理，以得到训练分词数据；根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

智能语音识别方法、装置及计算机可读存储介质-201910467875.5
发明人：王健宗;彭俊清;瞿晓阳 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-29 - 公布日： 2019-09-24 - 主分类号： G10L15/06
摘要：本发明涉及一种人工智能技术，揭露了一种智能语音识别方法，包括：接收语音集和文本集，对所述语音集和文本集进行预处理操作；从所述预处理完成的语音集中提取声学特征得到声学特征集，基于所述声学特征集组建音素集，在所述预处理完成的文本集和所述音素集之间建立状态联系；基于朴素贝叶斯和LSTM算法构建声学模型，将所述音素集和所述预处理完成的文本集输入至所述声学模型训练，直至所述声学模型的训练值小于预设阈值时退出训练；接收用户语音，利用所述声学模型识别所述用户语音后，将所述用户语音转换为文本格式，输出文本结果。本发明还提出一种智能语音识别方法装置以及一种计算机可读存储介质。本发明可以将用户的语音转换为文字输出。

一种识别广播信号中语音关键字的方法-201910596186.4
发明人：雒瑞森;孙超;武瑞娟;杜淼;余艳梅;龚晓峰 -专利权人：四川大学;成都大公博创信息技术有限公司
申请日： 2019-07-03 - 公布日： 2019-09-20 - 主分类号： G10L15/06
摘要：本发明公开了一种识别广播信号中语音关键字的方法，包括如下步骤：一、建立声学模型；二、建立关键字词的文字音素映射表；三、建立关键字序列字典；四、利用字典中的关键字对声学模型进行训练，得到关键字的语音特性与音素之间的映射，并将该映射载入声学模型；五、定义音素与指定的关键字词之间的映射，并将该映射保存至文字音素映射表中；六、将训练好的声学模型、文字音素映射表和关键字序列字典载入解码器；七、对待识别的广播信号进行去噪并进行特征提取，再将其载入解码器，得出关键字识别结果。通过使用关键字录制而成的样本对声学模型与文字音素映射表进行训练，由于我们并不需要完整的具备意义的句子，提高了文字音素映射表的容错率。

基于语音识别模型的样本数据获取方法、终端设备及介质-201910424176.2
发明人：王健宗;黄章成 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-21 - 公布日： 2019-09-17 - 主分类号： G10L15/06
摘要：本发明适用于人工智能技术领域，提供了一种基于语音识别模型的样本数据获取方法、终端设备及介质，包括：获取用户基于预设文本数据及预设语音表达方式输入的第一语音数据；对第一语音数据进行音转文处理，得到第一文本数据，将第一文本数据与预设文本数据进行文字匹配，得到文字匹配结果；确定第一语音数据的情感特征，将第一语音数据的情感特征与预设文本数据的预设情感特征进行情感特征匹配，得到情感特征匹配结果；基于文字匹配结果及情感特征匹配结果确定第一语音数据的总得分值，将总得分值大于第一预设得分值阈值的第一语音数据确定为用于训练语音识别模型的第一目标样本数据，如此，能够提高训练得到的语音识别模型的准确度。

欺骗录音检测神经网络模型的优化方法及系统-201910516188.8
发明人：俞凯;钱彦旻;王鸿基;丁翰林;王帅 -专利权人：苏州思必驰信息科技有限公司;上海交通大学
申请日： 2019-06-14 - 公布日： 2019-09-10 - 主分类号： G10L15/06
摘要：本发明实施例提供一种欺骗录音检测神经网络模型的优化方法。该方法包括：基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型；将源域数据以及目标域数据输入至特征提取器；将特征提取器的输出分别输入至欺骗检测器和领域预测器，通过训练欺骗录音检测神经网络模型，降低欺骗检测器的损失函数值和领域预测器的损失函数值；基于降低后的领域预测器的损失函数值对特征提取器进行对抗训练，使特征提取器输出到欺骗检测器的深度特征为域不变和欺骗检测区别的特征。本发明实施例还提供一种欺骗录音检测神经网络模型的优化系统。本发明实施例优化的模型在录音攻击检测中没有区分领域预测的能力，提高跨领域测试的泛化性能。

一种基于神经网络模型的任务驱动型对话决策方法-201910450074.8
发明人：许清;方昳凡;滕飞宇;陆相羽;黄子恒;易和阳;戈洋;杨颜睿 -专利权人：重庆邮电大学
申请日： 2019-05-28 - 公布日： 2019-09-06 - 主分类号： G10L15/06
摘要：本发明提供了一种基于神经网络模型的任务驱动型对话决策方法，通过训练模型内的置信状态跟踪器及其他部分参数，由意图识别模型生成的编码矢量作为意图分布和置信状态跟踪器生成的置信状态概率分布，交由数据库使用采集好的语料库进行查询，使用数据库搜索结果、意图分布以及概率分布交由策略网络组合形成系统动作，传递给生成网络组合输出系统应答，完成对话功能，拥有鲁棒性较好等特点，解决了当下任务驱动型对话系统存在的模型表达能力较差，训练难度大，模型可学习性限制较多，模型训练数据量庞大，模型训练奖励机制不完整，具体领域内实用性较差等问题。

远场语音识别方法和装置-201510768005.3
发明人：宋辉;魏建强 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-11-11 - 公布日： 2019-09-03 - 主分类号： G10L15/06
摘要：本发明提出一种远场语音识别方法和装置，该远场语音识别方法包括：将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；通过远场识别的声学模型对所述待识别的信号进行识别。本发明对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

模型构建方法和装置-201910466779.9
发明人：孙建伟 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2019-05-31 - 公布日： 2019-08-30 - 主分类号： G10L15/06
摘要：本发明实施例提出一种模型构建方法和装置，方法包括：利用训练样本对第一连接时序分类CTC声学模型进行训练，得到优化的第二CTC声学模型；将第二CTC声学模型作为编码层，与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合，构建初始的第二SMLTA声学模型。本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层，将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层，因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高，进而提高模型训练收敛速度，并且能够与训练样本的适配性更好。

一种小语料语音识别方法及系统-201910455300.1
发明人：黄志春;张定国;李永锡;陈育翔;伍宇文 -专利权人：广州伟宏智能科技有限公司
申请日： 2019-05-29 - 公布日： 2019-08-27 - 主分类号： G10L15/06
摘要：本发明公开了一种小语料语音识别方法及系统，包括语音采集、语音识别分类、构建训练模型、代入训练模型、判断识别结果和输出识别结果，本发明结构科学合理，使用安全方便，首先对小语料语音数据抽取收集，对小语料语音数据进行分类标注，可以节省标注语料的时间，避免工作人员在标注时出错，随后将小语料语音数据代入至小语料语音识别模型内，进行运算，输出识别结果，若识别结果未达到预定识别值，则保存小语料语音数据至训练集内，语音训练模型构建时，首先会获取相关的语料数据，对语料进行语义识别，进行语义标注，得出语音训练模型，对训练出的模型进行验证，若是识别率过低，则自动修改参数并继续进行新一轮训练。

一种口语考试的多维度评估方法及装置-201910266709.9
发明人：方敏;彭书勇;戚自力;林远东 -专利权人：苏州驰声信息科技有限公司
申请日： 2019-04-03 - 公布日： 2019-08-23 - 主分类号： G10L15/06
摘要：本发明涉及一种口语考试的多维度评估方法及装置，所述方法包括：获取考生的口语回答结果；确定对所述口语回答结果的评分维度，所述评分维度至少包括内容维度、发音维度、语法维度和流利度；基于所述评分维度，获取与所述评分维度相对应的维度评分值；基于各个所述维度评分值，确定所述口语回答结果的综合评分值；基于所述综合评分值和各个所述维度评分值，确定对所述考生的评估结果。本发明可以基于多个不同的维度同时对考生的口语回答作评估，还可以进一步形成综合评分值从整体上评估。

基于置信度的语音识别实现方法及系统-201710060942.2
发明人：俞凯;陈哲怀 -专利权人：上海交通大学;苏州思必驰信息科技有限公司
申请日： 2017-01-25 - 公布日： 2019-08-23 - 主分类号： G10L15/06
摘要：一种基于置信度的语音识别实现方法及系统，根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构，并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系，即混淆网络竞争概率；同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间，计算得到完整无损失的全搜索空间概率，并结合音素同步解码的语音识别，对生成的全搜索空间进行搜索过程记录，并由整个搜索历史进行路径回溯，从而得到全搜索空间概率；最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。本发明一方面可以对语音识别的结果给出正确的置信度，从而改善语音识别用户体验，另一方面可以显著减少语音识别置信度算法的计算和内存资源消耗。

声学模型训练构造方法、及声学模型和语音识别系统-201410602463.5
发明人：张晴晴;潘接林;颜永红 -专利权人：中国科学院声学研究所;北京中科信利技术有限公司
申请日： 2014-10-31 - 公布日： 2019-08-20 - 主分类号： G10L15/06
摘要：本发明提供一种声学模型的训练构造方法和基于训练方法的隐马尔科夫声学模型和语音识别系统，所述训练方法为：(1)基于训练数据和预先给定的状态聚类，计算得到每类的帧数统计量和类内散度矩阵。(2)对于模型中表示非语音的状态类，当其对应的帧数统计量远大于状态类的平均统计量时，对其进行统计量抑制平滑。(3)对于模型中表示语音的状态类，当其对应的帧数统计量远小于状态类的平均统计量时，对其进行统计量抑制平滑。(4)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵。(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的稳定声学模型。本发明最终提高声学模型的识别性能。

一种基于连续噪声估计的语音增强方法-201610812074.4
发明人：吕勇 -专利权人：河海大学
申请日： 2016-09-08 - 公布日： 2019-08-20 - 主分类号： G10L15/06
摘要：本发明公开一种基于连续噪声估计的语音增强方法，在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计，利用估得的噪声均值恢复纯净语音。首先，对输入语音进行声学预处理和快速傅里叶变换，得到每一帧数字语音的幅度和相位，幅度用于噪声估计和幅度谱减，相位用于恢复时域信号。然后，对数字语音的幅度谱进行子带滤波和取对数运算，得到对数谱，并利用预先训练得到的对数谱域语音模型从含噪语音的对数谱特征向量中实时提取噪声参数。最后，利用估得的噪声参数对含噪语音进行加权幅度谱减，并对增强语音的幅度和含噪语音的相位进行逆傅里叶变换和重叠相加，得到增强后的语音。本发明在含噪语音中对噪声参数按帧连续估计，实时跟踪噪声的变化。

一种语音识别模型的训练方法和装置-201810433323.8
发明人：张卓 -专利权人：上海依图网络科技有限公司;上海图智安网络科技有限公司;深圳依图信息技术有限公司
申请日： 2018-05-08 - 公布日： 2019-08-13 - 主分类号： G10L15/06
摘要：本申请实施例涉及人工智能领域，尤其涉及一种语音识别模型的训练方法和装置。本申请实施例提供一种语音识别模型的训练方法，包括：向语音识别模型输入语音，从语音识别模型的输出侧得到语音对应的N个文本，将N个文本中的每个文本与预设数据库中存储的多个文本进行匹配，得到N个文本对应的N个匹配程度值，根据N个匹配程度值和预设条件，将N个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本，将语音和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的N个文本进行删选处理，确定出目标文本，不再需要人工标注得到就可以获取目标文本，如此可以节省人工成本。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音唤醒的优化装置及方法在审

专利文献下载