[发明专利]声学模型训练方法、系统、移动终端及存储介质有效

专利信息
申请号: 202010401369.9 申请日: 2020-05-13
公开(公告)号: CN111798841B 公开(公告)日: 2023-01-03
发明(设计)人: 徐敏;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤 申请(专利权)人: 厦门快商通科技股份有限公司
主分类号: G10L15/14 分类号: G10L15/14;G10L15/06;G10L15/02
代理公司: 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 代理人: 吴圳添
地址: 361009 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种声学模型训练方法、系统、移动终端及存储介质,该方法包括:对第一音频数据和第二音频数据构建音素集;构建第一音频数据的发音特征与音素集中对应音素之间的映射关系,并根据第一音频数据训练发音特征提取器;根据发音特征提取器提取第二音频数据的发音特征,并将第二音频数据的发音特征和语音特征进行特征拼接,得到声学特征;根据声学特征训练GMM‑HMM语音识别模型,得到第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系,并根据第一对齐关系训练声学模型。本发明通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计,有效的提高了声学特征的鲁棒性,进而提高了对声学模型的模型训练的准确性。
搜索关键词: 声学 模型 训练 方法 系统 移动 终端 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010401369.9/,转载请声明来源钻瓜专利网。

同类专利
  • 语音识别方法和装置、服务器、计算机可读存储介质-202011607655.7
  • 周维聪;袁丁;赵金昊;刘云峰 - 深圳追一科技有限公司
  • 2020-12-30 - 2023-10-24 - G10L15/14
  • 本申请涉及一种语音识别方法和装置、服务器、计算机可读存储介质,包括:对待处理的语音数据进行声学特征提取,将所提取的声学特征输入声学模型,计算声学特征的声学模型得分。采用主解码网络及子解码网络,对声学特征及声学特征的声学模型得分进行解码得到语音识别结果。该语音识别方法,并未对待识别场景重新训练解码网络,而是对待识别场景中的目标命名实体进行训练得到子解码图,再采用主解码网络及子解码网络进行解码得到语音识别结果。所以,针对待识别场景中的目标命名实体,基于子解码网络就可以对目标命名实体进行准确地解码。且因为未对待识别场景重新训练解码网络,所以大大缩短训练时间长,提高语音识别效率。
  • 一种河南方言语音识别系统-201610968693.2
  • 范雪莉;于海龙 - 许昌学院
  • 2016-10-28 - 2023-08-04 - G10L15/14
  • 本发明公开了一种河南方言语音识别系统,包括语音获取设备、语音识别设备及语音判定设备,语音获取设备接收用户输入河南方言的语音指令;语音识别设备包括语音提取单元和特征压缩单元,语音提取单元根据收到的语音指令提取河南方言的短时音频特征,特征压缩单元根据提取的过零率、基频和美尔倒谱系数特征从语音指令中找出相互间相似度满足预设条件的音频帧特征,语音判定设备包括语音判定部分和语音输出部分,语音判定部分利用隐马尔科夫模型从音频帧特征中选择一个或多个最优候选识别特征,并输至语音输出部分,采用上述方案,本发明提出的河南方言语音识别系统提高了运行效率和识别效果,具有很好的市场应用价值。
  • 语音识别方法、装置、计算机设备及存储介质-201811527515.1
  • 谭莉 - 平安科技(深圳)有限公司
  • 2018-12-13 - 2023-08-04 - G10L15/14
  • 本发明公开了一种语音识别方法、装置、计算机设备及存储介质,所述方法包括:获取测试产品缺陷过程中录入的测试语音数据;通过语音识别模型对测试语音数据进行语音识别,获取测试语音数据的识别文本;获取经过训练的马尔可夫模型;将识别文本输入马尔可夫模型,并通过马尔可夫模型识别识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;根据各修正文本的输出概率确认与识别文本对应的修正文本。本提案通过引入马尔可夫模型,修正对测试语音数据进行普通语音识别后获得的识别文本,进而获取契合测试语音数据的修正文本,提高测试人员提交测试缺陷数据的效率,增强用户体验。
  • 电子设备及其控制方法-202180076503.5
  • 朴相俊;闵庚甫;朱基岘;崔胜渡 - 三星电子株式会社
  • 2021-10-12 - 2023-07-18 - G10L15/14
  • 提供了一种电子设备及其控制方法。所述电子设备包括麦克风、存储器和处理器,所述处理器被配置为:当通过所述麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将所述多个候选参考向量和多个评估文本输入到TTS模型来获得多个合成声音,基于所述多个合成声音与所述用户之间的相似度和所述多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音,并且将所述至少一个合成声音的参考向量存储在所述存储器中作为对应于所述用户的用于所述TTS模型的参考向量。电子设备可以使用根据机器学习、神经网络或深度学习算法中的至少一个学习的基于规则的模型或人工智能模型。
  • 任务执行方法、装置、计算机设备及其存储介质-202310315554.X
  • 钱铖;陆晟;孙云飞;毛文静 - 中国工商银行股份有限公司
  • 2023-03-28 - 2023-06-27 - G10L15/14
  • 本申请涉及一种任务执行方法、装置、计算机设备及其存储介质,涉及人工智能技术领域。所述方法包括:对目标用户输入的任务需求语音进行分段处理,得到至少两个语音片段;通过至少两个隐马尔可夫HMM模型,确定各语音片段对应的至少两个预测结果,每一语音片段对应的各预测结果包括各HMM模型预测的该语音片段中的关键信息所属类别和所属类别的置信度;基于各语音片段对应的至少两个预测结果,确定各语音片段包含的关键信息;基于关键信息,确定待执行任务的任务执行策略。本申请实现了在降低用户时间与精力消耗的前提下,实现待执行任务的任务执行策略的确定。
  • 音频识别方法、电子设备及计算机可读存储介质-202310313241.0
  • 王武城;孔令城;赵伟峰;姜涛;周文江 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2023-03-27 - 2023-06-23 - G10L15/14
  • 本申请实施例公开了一种音频识别方法、电子设备及计算机可读存储介质,其中方法包括对目标音频进行切片操作得到多个音频片段,并获取每个音频片段的旋律指纹;针对每个音频片段,在指纹库中查找与旋律指纹相似度最高的前K个预存旋律指纹以及K个预存旋律指纹对应的匹配歌曲,得到音频片段的K个匹配歌曲;基于相邻匹配歌曲之间的预设转移概率以及每个音频片段的K个匹配歌曲对应的相似度,从每个音频片段的K个匹配歌曲中确定每个音频片段的目标匹配歌曲;根据每个音频片段的目标匹配歌曲,确定目标音频的音频识别结果,音频识别结果用于指示目标音频是否为串烧歌曲。本申请可以提升音频识别的准确率。
  • 连续长语音呼救信息识别方法-202310122791.4
  • 张方方;王敬超;朱建永;宋伟;郭海涛;李娜;彭金柱;徐华兴 - 郑州大学
  • 2023-02-16 - 2023-06-23 - G10L15/14
  • 本发明公开了一种连续长语音呼救信息识别方法,实时录制和保存待监测区的语音数据,经预处理后形成预识别语音;按照预设的M+1组窗长Ti和固定窗移Tstep滑动截取预识别语音,得到M+1组语音片段;提取每组所述语音片段的MFCC特征;使用GMM‑HMM模型对所述MFCC特征进行概率评分;统计每组语音片段的MFCC特征的概率评分满足临界阈值的数量ni;若存在任一组语音片段满足ni大于N,则判定所述预识别语音中含有呼救信息。本发明的优点在于不需要结合上下文进行语义分析,可以针对关键词进行建模,识别流程简单,能够快速精准、适用不同语速的识别出长语音中的关键呼救信息。
  • 基于辅助数据正则化的说话人自适应方法-202011411575.4
  • 罗小杰;魏建国;李杰 - 天津大学
  • 2020-12-03 - 2023-06-20 - G10L15/14
  • 本发明属于语音识别领域的说话人自适应技术,为解决数据的稀疏性问题带来的过拟合,提高目标说话人的识别准确率。本发明,基于辅助数据正则化的说话人自适应方法,步骤如下:步骤一,说话人无关的语音识别系统的训练;步骤二,辅助数据集的获取;步骤三,准备说话人的数据;步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM‑HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。本发明主要应用于语音识别场合。
  • 一种语音识别方法-201810514662.9
  • 范文涛;杜吉祥;符江鹏 - 华侨大学
  • 2018-05-25 - 2023-06-13 - G10L15/14
  • 本发明涉及一种语音识别方法,其包括所述语音识别方法包括输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断更新优化模型参数;将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模;根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上,提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模,同时使用变分推断实现模型参数的求解,谋求模型鲁棒性和提高准确率。
  • 基于深层混合因子分析的声学模型的构建方法-201811537321.X
  • 屈丹;闫红刚;张文林;杨绪魁;牛铜;张连海;陈琦;李真;魏雪娟 - 中国人民解放军战略支援部队信息工程大学
  • 2018-12-15 - 2023-06-06 - G10L15/14
  • 本发明涉及语音识别技术领域,公开基于深层混合因子分析的声学模型的构建方法,包括:利用训练数据,采用HMM‑GMM模型生成基线系统;根据HMM‑GMM模型参数,对DMFA模型进行初始化,DMFA模型由两层MFA模型组成,采用GMM聚类和概率主成分分析方法初始化DMFA模型参数;利用训练数据,通过HMM‑GMM模型的基线系统,采用贪婪EM算法估计声学特征空间的DMFA模型的整体模型参数;估计DMFA模型的第一层MFA模型的状态模型参数,所述状态模型参数包括状态相关参数及状态无关参数;估计DMFA模型的第二层MFA模型的状态模型参数。本发明将深层混合因子分析模型引入到状态模型的建模过程中,提出了基于深层混合因子分析的声学模型,具备更好的抗过拟合能力。
  • 一种多模态情绪识别方法以及系统-202111422119.4
  • 张星星;张画 - 中国电信股份有限公司
  • 2021-11-26 - 2023-05-30 - G10L15/14
  • 本公开涉及多模态情绪识别方法以及系统,该方法包括:多模态信息预处理步骤,采集用户的语音数据和图像数据,获得对应的语音片段数据和面部图像数据;多模态情绪识别步骤,进行语音、文本和表情视觉情绪分析以得到对应的情绪状态的结果;第一HMM处理步骤,将多模态的情绪状态的结果组合成一组特征,作为观测值输入至该第一HMM,输出各个情绪的对应概率;相关度计算步骤,对于多模态的情绪状态的结果,使用交叉相关函数CCF,计算结果两两之间的相关性;以及第二HMM处理步骤,将相关性结果以及多模态的情绪状态的结果作为观测值输入至该第二HMM,将输出数值最大的情绪作为最终识别结果。
  • 一种基于统计语言模型得分规整的语音识别方法及系统-201710790753.0
  • 张鹏远;张一珂;潘接林;颜永红 - 中国科学院声学研究所;北京中科信利技术有限公司
  • 2017-09-05 - 2023-04-07 - G10L15/14
  • 本发明一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型;步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性,能够有效的提升语音识别的正确率。
  • 语音识别方法、系统、装置及介质-202110470132.0
  • 白蒙蒙 - 上海淇玥信息技术有限公司
  • 2021-04-28 - 2023-03-10 - G10L15/14
  • 本发明涉及语音识别领域,针对现有的语音识别、计算资源浪费、多个模型间无法实现热切换、单一领域模型不适应长对话识别等缺陷,提出了本发明的语音识别方法、系统、装置及介质,旨在解决如何基于深度学习的动态语言模型根据领域信息,提供不同领域的语音识别服的技术问题。为此,本发明的方法通过构建的语音识别模型在预测过程中结合语料领域信息的利用,提供了适用于多领域有效热切换、长对话的语音识别服务,改进了现有语音识别服务性能,有效减少资源浪费,适合不同领域交叉、长对话的正确识别,实现识别热切换,且实现简单操作容易成本低效率高。
  • 基于语音对话的情感识别方法、装置、电子设备及介质-202211320699.0
  • 曹凯莉 - 深圳壹账通智能科技有限公司
  • 2022-10-26 - 2023-01-20 - G10L15/14
  • 本发明涉及用于金融科技领域的人工智能,揭露一种基于语音对话的情感识别方法,包括:基于用户语音数据的频率倒谱系数对用户语音数据进行属性识别,得到属性识别结果,根据属性识别结果检索到对应的目标服务人员,选取目标服务人员与用户之间的多轮对话数据中符合预设条件的数据作为训练样本数据,利用训练样本数据中的多个情感特征参数对向量机模型进行训练处理得到的标准情感识别模型对待识别语音数据进行情感识别,得到情感识别结果。此外,本发明还涉及区块链技术,属性识别结果可存储于区块链的节点。本发明还提出一种基于语音对话的情感识别装置、电子设备以及存储介质。本发明可以提高金融科技领域中基于语音对话的情感识别的准确度。
  • 声学模型训练方法、系统、移动终端及存储介质-202010401369.9
  • 徐敏;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤 - 厦门快商通科技股份有限公司
  • 2020-05-13 - 2023-01-03 - G10L15/14
  • 本发明提供了一种声学模型训练方法、系统、移动终端及存储介质,该方法包括:对第一音频数据和第二音频数据构建音素集;构建第一音频数据的发音特征与音素集中对应音素之间的映射关系,并根据第一音频数据训练发音特征提取器;根据发音特征提取器提取第二音频数据的发音特征,并将第二音频数据的发音特征和语音特征进行特征拼接,得到声学特征;根据声学特征训练GMM‑HMM语音识别模型,得到第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系,并根据第一对齐关系训练声学模型。本发明通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计,有效的提高了声学特征的鲁棒性,进而提高了对声学模型的模型训练的准确性。
  • 语音交互方法、装置、电子设备和存储介质-202211086105.4
  • 李骁;于欣璐;赖众程;常鹏;高洪喜;聂文尚;冯晋飞;苏杰;胡云飞;张莉;邓兆卉 - 平安银行股份有限公司
  • 2022-09-06 - 2022-12-20 - G10L15/14
  • 本发明公开了一种语音交互方法、装置、电子设备和存储介质,对用户输入的语音进行语义解析,得到语音的语义解析结果;通过基于部分可观察的马尔科夫决策过程建立的预测模型对语义解析结果进行类型预测,得到语义解析结果对应的目标对话类型;将目标对话类型输入至预设的知识图谱网络,生成知识图谱向量,将知识图谱向量输入至推荐网络,得到目标对话类型对应的回复文本,并对回复文本进行语音转换,得到回复文本对应的回复语音,输出回复语音;本发明能够对用户输入的语音进行语义解析,并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图,并根据知识图谱识别符合用户意图的回复文本,提高了语音交互的准确性和可靠性。
  • 语音数据的识别方法及其装置、电子设备及存储介质-202211167376.2
  • 姜珂;孙彦芬;万朝华 - 山石网科通信技术股份有限公司
  • 2022-09-23 - 2022-12-06 - G10L15/14
  • 本发明公开了一种语音数据的识别方法及其装置、电子设备及存储介质,其中,该识别方法包括:对通信过程中的语音数据进行分窗处理,得到多个子窗口数据,对每个子窗口数据进行预设梅尔处理,得到梅尔向量,对梅尔向量进行解码,得到与每个子窗口数据对应的语音状态,将语音状态与预先建立的隐马尔科夫模型中的目标状态进行匹配,并在匹配成功的情况下,确定语音数据中携带有敏感信息。本发明解决了相关技术中对即时通信中的语音数据的识别精度较低,且通信延迟较大,降低了通信质量的技术问题。
  • 一种基于口音识别的鲁棒语音识别方法-201811030962.6
  • 吕勇 - 河海大学
  • 2018-09-05 - 2022-12-06 - G10L15/14
  • 本发明公开一种基于口音识别的鲁棒语音识别方法,用多类口音的声学模型预测目标说话人的口音特性。在训练阶段,将发音特性相近的口音合并为一类,为每类口音训练生成一个高斯混合模型和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。本发明可以减小口音对语音识别系统的影响,提高口音改变条件下模型自适应的准确性。
  • 语音唤醒模型的训练方法、装置、电子设备及存储介质-202010335105.8
  • 戚萌;张维城;董斐;潘思伟;陈皓;林福辉 - 展讯通信(上海)有限公司
  • 2020-04-24 - 2022-11-08 - G10L15/14
  • 本申请提供一种语音唤醒模型的训练方法、装置、电子设备及存储介质,该方法包括:确定唤醒词对应的待训练的关键词集,并对待训练的关键词集进行预处理,以生成待训练的关键词集的特征序列集合;通过特征序列集合对GMM‑HMM中的HMM进行初始化,并确定特征序列集合的初始分割方式;根据特征序列集合和初始分割方式对GMM‑HMM中的GMM进行参数估计,生成初始GMM‑HMM;根据特征序列集合、初始分割方式、Baum‑Welch算法和Viterbi算法对初始GMM‑HMM进行训练,以获取训练后的基于唤醒词的语音唤醒模型。实现了在训练集相对较小时,可以有效保证语音唤醒模型识别关键词的准确性。
  • 一种基于CTC模型解码的实现方法、装置、设备及可读存储介质-202210714194.6
  • 肖艳红;赵茂祥;李全忠;何国涛;蒲瑶 - 普强时代(珠海横琴)信息技术有限公司
  • 2022-06-22 - 2022-09-27 - G10L15/14
  • 本发明公开了一种基于CTC模型解码的实现方法、装置、设备及可读存储介质,包括:将待解码声音送入解码模型;其中,待解码声音包括空白字符字符和非空白字符;由解码模型对待解码声音进行解码;其中,解码模型包括DNN结构与HMM结构;DNN结构用于获取空白字符与非空白字符的声学分;HMM结构包括一种将空白字符和其所连接的非空白字符的隐马尔可夫模型合并的结构,每个非空白字符都有一个边带,边带自跳的发射概率为空白字符的声学分,边带转移的发射概率为非空白字符的声学分。本发明通过一种新的解码模型,删除待解码声音解码过程中的没有实际输出含义的空白信号,解决了解码所需的内存过多的问题。
  • 一种语音识别方法、装置及设备-202011623207.6
  • 陈孝良;冯大航;焦伟;常乐 - 北京声智科技有限公司
  • 2020-12-31 - 2022-09-23 - G10L15/14
  • 本发明提供一种语音识别方法、装置及设备,该方法包括:获取待识别语音;利用声学模型和预先构建的目标解码模型,对待识别语音进行识别,得到识别结果,其中,识别结果包括音素序列、文本和音素时间点信息,目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型,CLG为音素模型、发音词典和语言模型组合形成的模型,CLG的每条输出实边对应一个音素,HMM中建立有HMM状态与音素的对应关系;依据识别结果,确定文本中每个词的时间点信息;输出文本和时间点信息。这样,通过预先构建的HMM与CLG结合的解码模型,可识别得到待识别语音中每个发音音素的时间点信息,进而可基于已识别文本中每个词对应的音素的时间点信息,准确地确定每个词的时间点信息。
  • 基于HMM的失语症患者语音识别算法及装置-202210556984.6
  • 李月凤;王向;闫慧聪;李金泽 - 河北科技大学
  • 2022-05-20 - 2022-09-16 - G10L15/14
  • 本发明公开了基于HMM的失语症患者语音识别算法及装置,涉及语音识别技术领域;算法包括S1获得HMM模型,获得HMM模型;S2语音识别,基于上一步骤获得的获得HMM模型,识别语音;装置包括获得HMM模型模块,用于控制器获得HMM模型;语音识别模块,用于控制器基于HMM模型,识别语音;其通过获得HMM模型模块和语音识别模块等,实现语音识别效果较好。
  • 语音识别及其模型训练方法-202110207931.9
  • 胡月志;杨占磊;肖龙帅 - 华为技术有限公司
  • 2021-02-24 - 2022-08-30 - G10L15/14
  • 本申请涉及一种语音识别及其模型训练方法,该训练方法包括:根据包括成人音素集合和儿童音素集合的第一音素集合生成第一发音词典;利用训练数据和第一发音词典对第一声学模型进行训练,得到第一状态的第一声学模型;根据第一状态的第一声学模型进行音素和词典更新得到第二音素集合和第二发音词典;根据训练数据和第二发音词典,对第一状态的第一声学模型进行训练,得到第二状态的第一声学模型;根据第二状态的第一声学模型,生成初始化第二声学模型;根据训练数据和第二发音词典对初始化第二声学模型进行训练得到第二声学模型。第二声学模型能够对成人和儿童的语音进行识别,且对成人和儿童的语音识别率高、能节省系统资源。
  • 一种基于调度域技术的语音识别系统及其方法、存储介质-202210381961.6
  • 谢代钰;张元胜;巫聪云;何井龙;陈新凌;唐佳;胡宇阳;杨加意;阳晟;潘连荣;宁阳天 - 广西电网有限责任公司
  • 2022-04-12 - 2022-07-26 - G10L15/14
  • 本发明公开了一种基于调度域技术的语音识别系统,包括以下组成模块:语音接收模块、调度域模块、语音处理模块、特征获取模块、训练模型模块、解码模块,所述语音接收模块的输出端连接有调度域模块,所述调度域模块的输出端连接有语音处理模块,所述语音处理模块包括静音切除模块和降噪处理模块,所述静音切除模块连接在调度域模块的输出端。本发明采用了调度域技术加速语音识别系统的运行速度,通过端点检测技术对采集的语音进行首尾段静音切除,通过移动窗函数对语音进行分帧操作,通过傅里叶变换进行音频降噪,提高后续语音处理效率,通过神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。
  • 语音识别方法、装置及计算机可读存储介质-202111566533.2
  • 黄惠祥;史巍;林聚财;殷俊 - 浙江大华技术股份有限公司
  • 2021-12-20 - 2022-05-13 - G10L15/14
  • 本申请公开了一种语音识别方法、装置及计算机可读存储介质,该语音识别方法包括:对待识别语音信号进行至少两种不同特征的识别,得到至少两个词图;分别确定每个词图中每条发射弧的第一评价分数;分别确定每个词图中每条发射弧的权重;分别根据每个路径下所有发射弧各自的第一评价分数以及权重,确定每个路径的第二评价分数;融合所有的词图,得到融合词图,并根据每个路径的第二评价分数,设置融合词图中每个路径下发射弧的第三评价分数;根据融合词图以及融合词图中发射弧的第三评价分数,确定待识别语音信号的识别结果。本申请所提供的语音识别方法能够提高语音识别的准确率。
  • 语音识别模型的处理方法、装置、设备及存储介质-202111629366.1
  • 连荣忠;于夕畔;陈志军;姜迪;徐倩;杨强 - 深圳前海微众银行股份有限公司
  • 2021-12-28 - 2022-04-12 - G10L15/14
  • 本发明提供一种语音识别模型的处理方法、装置、设备及存储介质,该方法包括:响应作用于RPA平台的图形用户界面的模型选择操作,从RPA平台的数据库中获取多个目标场景的语音识别模型,对多个目标场景的语音识别模型的模型参数进行N次迭代确定联邦语音识别模型的模型参数,获得最终的联邦语音识别模型,将其模型参数存储至预设路径。其中每个目标场景的语音识别模型是根据目标场景的音频样本和音频样本对应的文本标注,通过迁移学习对基础语音识别模型进行训练得到的,N为正整数。通过上述方案获得的联邦语音识别模型,融合了多个目标场景的模型参数,提升了语音识别模型识别的广度和深度,识别效果更佳。
  • 用于训练声学模型的每一代的数据增强-202080054978.X
  • R·J·卡特莱特;C·G·海恩斯 - 杜比实验室特许公司
  • 2020-07-30 - 2022-03-11 - G10L15/14
  • 在一些实施例中,用于训练声学模型的方法和系统,其中训练包括数据准备阶段之后的训练循环(包括至少一代)。在训练循环期间,训练数据被增强以生成增强训练数据。在训练循环的每一代期间,增强训练数据中的至少一些被用于训练模型。可以通过不同地增强(例如,使用不同的增强参数集合来增强)训练数据中的至少一些来生成在每一代期间使用的增强训练数据。在一些实施例中,增强是在频域中执行的,其中训练数据被组织到频带中。声学模型可以是被用于(被训练用于)执行语音分析(例如,唤醒词检测、语音活动检测、语音识别或说话者识别)和/或噪声抑制的类型。
  • 用于改进的关键词检测的技术-202111573180.9
  • P·曼加拉斯;J·G·鲍尔;G·斯特摩尔 - 英特尔公司
  • 2017-08-17 - 2022-03-04 - G10L15/14
  • 用于改进的关键词检测的技术被公开。一种计算设备可以捕获来自该计算设备的用户的语音数据,并且对所捕获的语音数据执行自动语音识别。自动语音识别算法被配置为既可以检测关键词,也可以提供对所捕获的语音数据的完整转录。与相似的词相比,自动语音识别算法可以优先匹配关键词。所识别的关键词可用于改进转录的语音数据的解析或用于改进辅助代理以与计算设备的用户保持对话。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top