[发明专利]语音识别方法、装置、电子设备和存储介质在审

专利信息
申请号: 202011604891.3 申请日: 2020-12-30
公开(公告)号: CN112599118A 公开(公告)日: 2021-04-02
发明(设计)人: 万根顺;高建清;刘聪;王智国;胡国平 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G10L15/07 分类号: G10L15/07;G10L17/00;G10L17/04
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李文清
地址: 230088 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的语音数据;基于经训练的语音识别模型,确定语音数据的语音识别结果;其中,语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互,或,将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互,得到语音数据的说话人特征,并基于语音数据的语音特征和说话人特征,对语音数据进行语音识别。本发明实施例提供的语音识别方法、装置、电子设备和存储介质,提高了说话人自适应的实时性和效果,有助于提高多人会话场景下的语音识别准确性。
搜索关键词: 语音 识别 方法 装置 电子设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202011604891.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于生成对抗网络数据增强带口音语音识别技术-202311049621.4
  • 张颖 - 昆山元乐府科技有限公司
  • 2023-08-21 - 2023-10-10 - G10L15/07
  • 本发明公开了一种基于生成对抗网络数据增强带口音语音识别技术,以实现对口音容忍度更高的高精度语音识别,包括以下步骤:我们首先收集了10个不同的说话人带口音偏差的语音数据作为种子数据用于后续的数据增强;我们按照一种多说话人带口音语音合成数据集的格式生成标注数据;之后,以在多说话人带口音原始数据集上预训练的快速语音模型为文字转梅尔频谱的声学模型基座,以在同一数据集上预训练的并行语音生成对抗网络为梅尔频谱转音频数据的声码器,用种子数据进行微调;之后,用微调过后的声学模型和声码器进行数据增强;之后,利用语音识别模型训练框架,训练了一个可以更加准确识别带口音的语音识别模型。
  • 基于语义场景的语音识别方法、装置、设备及存储介质-202310897402.5
  • 张伟扬;王钰啸;何敏 - 合肥中鸿嘉睿信息科技有限公司
  • 2023-07-21 - 2023-09-12 - G10L15/07
  • 本发明涉及一种基于语义场景的语音识别方法、装置、设备及存储介质,涉及互联网技术领域,该方法包括以下步骤:通过采集获取待识别语音数据,并加载语义场景识别模式;将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得待识别语音数据的语音特征;基于语音特征与加载的语义场景识别模式进行比对,获得语音特征对应的预存语义场景模式,并将预存语义场景模式作为待识别语音数据的目标语义场景模式;基于目标语义场景模式对待识别语音数据的语音特征执行校验操作,根据校验结果以更新语音特征的识别结果。本发明可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。
  • 语音纠正方法及装置、计算机存储介质及终端-202210131657.6
  • 李波 - 广州视源电子科技股份有限公司;广州视睿电子科技有限公司
  • 2022-02-11 - 2023-08-22 - G10L15/07
  • 本申请提供了一种语音纠正方法及装置、介质及终端,涉及语音识别技术领域。该方法包括:将待测语音输入至语音识别模型,根据语音识别模型的输出确定待测语音对应的待测音标以及待测音标对应的发音标签,发音标签为发音准确或所存在的第k发音问题;在待测音标对应的发音标签为所存在的第k发音问题的情况下,确定第k发音问题对应的解决策略;输出第k发音问题和第k发音问题对应的解决策略,第k发音问题对应的解决策略为解决第k发音问题的对策。本技术方案能够于错误数据收集,分析出常见的口语发音错误,通过语音识别模型自动识别出在学生练习口语的过程中发音错误的原因,并自动提示正确的发音口型,辅助口语的学习,提高准确率与学习效率。
  • 沉浸式语音交互方法、装置、智能书桌以及可读存储介质-202310451855.5
  • 孙炼;许坚旺;吴雁辉;赵伟根;郭培倩 - 珠海华章科技有限公司
  • 2023-04-25 - 2023-07-18 - G10L15/07
  • 本申请实施例涉及语音处理领域,具体提供了一种沉浸式语音交互方法、装置、智能书桌以及可读存储介质。该方法包括:获取智能书桌所处环境的声场并采集第一语音数据;根据声场对第一语音数据进行处理获得第二语音数据;将第二语音数据进行语音识别获得文本数据,并根据文本数据进行特征提取获得知识点数据;根据文本数据、知识点数据和知识点图谱获得测试数据;将测试数据根据声场发布至所处环境中;接收用户对测试数据对应的响应数据,并根据响应数据得到用户的得分信息;根据用户的得分信息制定相应的学习策略,以使得用户完成知识点数据的学习。从而根据用户自身需求更有针对性的对用户制定学习策略,进而提高用户的学习积极性。
  • 针对多口音语音识别的方法和装置-202110594476.2
  • 钱彦旻;龚勋;卢怡宙;周之恺 - 思必驰科技股份有限公司
  • 2021-05-28 - 2023-07-14 - G10L15/07
  • 本发明公开针对多口音语音识别的方法和装置,其中,一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;将口音无关特征也同时输入到所述自适应层中;以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。本申请实施例进一步探讨了适应层的注入位置、口音基数和不同类型的口音基数,以实现更好的口音适应。
  • 一种语音识别方法、装置、存储介质及设备-202211725390.X
  • 侯曼曼;黄爽;孔常青;黄明登 - 科大讯飞股份有限公司
  • 2022-12-28 - 2023-05-02 - G10L15/07
  • 本申请公开了一种语音识别方法、装置、存储介质及计算设备,涉及语音识别技术领域,该方法包括:接收用户输入的语音流,语音流被分为多路,然后使用默认场景参数对所述多路语音流中的第一路语音流的第一语音片段进行识别,获得第一识别结果,以及根据所述多路语音流中的第二路语音流进行场景检测,获得推荐场景参数,接着使用推荐场景参数对所述第一路语音流的第二语音片段进行识别,获得第二识别结果。该方法将一路语音流专用于进行场景检测,从而获得推荐场景参数,如此即使场景中出现预料外的情况,例如会议中出现说话人变化,也可以使用该推荐场景参数进行语音识别,保障语音识别的准确度,满足业务的需求。
  • 一种基于幂函数频率变换的说话人补偿方法-201811091418.2
  • 吕勇 - 河海大学
  • 2018-09-19 - 2023-02-28 - G10L15/07
  • 本发明公开了一种基于幂函数频率变换的说话人补偿方法,用一个隐马尔可夫模型(HMM:Hidden Markov Model)描述训练语音的分布;在测试阶段,用幂函数对目标说话人的频谱进行非线性频率变换,使HMM的输出概率最大,将输出概率最大时的变换参数作为目标说话人的最优变换参数。本发明可以减小说话人的改变对语音识别系统的影响,具有运算量小,实时性好,易于实现的优点。
  • 语音检测方法、装置、电子设备及存储介质-202211096275.0
  • 原道德;吴磊;杨凯;刘进涛;葛新;韩东彪 - 建信金融科技有限责任公司
  • 2022-09-08 - 2023-02-03 - G10L15/07
  • 本申请提供一种语音检测方法、装置、电子设备及存储介质,涉及语音识别领域。所述方法包括:获取用户的指令语音,并提取所述指令语音的声纹特征;从各声纹特征对应的语音检测模型中,确定与所述指令语音的声纹特征对应的目标语音检测模型;以及,根据所述指令语音,对所述目标语音检测模型进行自适应处理;基于自适应处理后的所述目标语音检测模型,对所述指令语音进行语音检测。以上方案,通过筛选与用户的指令语音的声纹特征对应的目标语音检测模型,来提高指令语音的声纹特征与语音检测模型的匹配度,从而提高语音检测准确度。
  • 说话人自适应方法、装置、设备及存储介质-201710457375.4
  • 黄俊;李先刚;蒋兵 - 百度在线网络技术(北京)有限公司
  • 2017-06-16 - 2023-01-17 - G10L15/07
  • 本发明实施例公开了一种说话人自适应方法、装置、设备及存储介质。所述说话人自适应方法包括:获取目标说话人的第一语音数据;将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练,得到包含所述目标说话人语音参数的语音识别模型。本发明实施例通过将目标说话人的第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练,得到包含所述目标说话人语音参数的语音识别模型,可以简化说话人自适应过程,降低自适应复杂度,提高自适应性能。
  • 一种语音语速自适应识别系统-202111547185.4
  • 邹月荣;李权;汪张龙;郭清霞;李艳;许东生;杜平 - 广东讯飞启明科技发展有限公司
  • 2021-12-17 - 2022-07-05 - G10L15/07
  • 本发明提供一种语音语速自适应识别系统,所述识别系统包括用户输入模块以及自适应处理模块;所述用户输入模块用于用户输入语音信息,所述自适应处理模块包括语音转换单元、文字划分单元、分析单元以及自适应处理单元;所述语音转换单元用于将用户输入的语音信息转换成文字信息;所述文字划分单元用于将转换后的文字信息进行独立文字的划分;所述分析单元基于划分后的独立文字进行分析处理,得到划分后文字信息的参数。本发明能够基于不同用户的语速进行自适应识别,从而提高对不同用户的语音转换的全面有效性,以解决现有的语音识别对于语速的自适应存在不足的问题。
  • 语音识别方法、装置、设备、可读存储介质及计算机程序-202111459909.X
  • 李良斌;陈孝良 - 北京声智科技有限公司
  • 2021-12-02 - 2022-03-11 - G10L15/07
  • 本申请公开了一种语音识别方法、装置、设备、可读存储介质及计算机程序,属于计算机技术领域。通过本申请实施例提供的技术方案,获取语音数据;调用声纹识别模型,对该语音数据和语音特征集进行处理,以确定与该语音数据匹配的目标用户,语音特征集中存储有多个用户的历史语音特征;在对该语音数据进行解码的过程中,调用与目标用户匹配的目标语言模型对该语音数据进行处理,以得到该语音数据对应的目标文本,其中,目标语言模型基于目标用户的历史文本数据训练得到;输出该语音数据对应的目标文本。该技术方案能够提高语音识别的准确率。
  • 语音唤醒处理方法、装置、存储介质及电子设备-201910828451.7
  • 陈杰;苏丹 - 腾讯科技(深圳)有限公司
  • 2019-09-03 - 2021-12-14 - G10L15/07
  • 本申请提供的一种语音唤醒处理方法、装置、存储介质及电子设备,取该输入语音信息的音频帧特征,将其输入声学模型进行处理,得到预设唤醒词的每个音节对应的目标音频帧特征的后验概率,利用部署的分别针对成人模式和儿童模式的置信度判决,实现对得到的这些后验概率的双置信度判决,以使每个音节得到两个置信度得分,其中任一置信度得分的判决结果通过,会从缓存中获取相应长度的校验音频帧特征进行二次置信度校验,待置信度校验结果通过,可以直接响应该预设唤醒词对应的指令,控制电子设备执行预设操作。可见,本实施例提供的语音唤醒处理方法,能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能,提高了语音唤醒效率及准确性。
  • 语音转换方法和装置-201710093860.8
  • 袁豪磊;梅晓 - 腾讯科技(上海)有限公司
  • 2017-02-21 - 2021-11-02 - G10L15/07
  • 本发明涉及一种语音转换方法和装置,该方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。本申请提供的方案提高了语音转换效果。
  • 一种基于非线性谱变换的特征补偿方法-201711112747.6
  • 吕勇 - 河海大学
  • 2017-11-13 - 2021-07-27 - G10L15/07
  • 本发明公开了了一种基于非线性谱变换的特征补偿方法,在训练阶段,用大量说话人的标准语音训练生成一个高斯混合模型(GMM:Gaussian Mixture Model);在测试阶段,用各种变换参数对目标说话人每帧语音的幅度谱进行非线性频率变换,使GMM的输出概率最大,将输出概率最大时的美尔频率倒谱系数(MFCC:Mel Frequency Cepstral Coefficients)作为补偿后的目标语音特征参数。本发明可以使目标说话人的语音特性与预先训练的声学模型相匹配,减小说话人失配对语音识别系统的影响,具有实时性好,与后端识别器无关的优点。
  • 用户个人的发音词典模型的自适应修正方法及系统-201910598719.2
  • 陈梦姣 - 思必驰科技股份有限公司
  • 2019-07-04 - 2021-07-06 - G10L15/07
  • 本发明实施例提供一种用户个人的发音词典模型的自适应修正方法。该方法包括:建立初始的个人的发音词典模型,接收用户对模型识别结果中的错误单词的修正,当修正为匹配的替换性单词时,比较错误单词的声学分数中的置信度与预设置信度阈值的大小,确定存在发音问题;判断错误单词与替换性单词的发音关系是否属于规律性模糊音规则,比较历史修正次数,属于则进行批量调整与错误发音同类发音权重,不属于则单独调整错误发音权重,基于调整后的权重,自适应修正个人的发音词典模型。本发明实施例还提供一种用户个人的发音词典模型的自适应修正系统。本发明实施例有效处理用户因发音不准引起的识别错误,对有规律的一类错误发音可以进行批量修改。
  • 语音识别系统及语音识别方法-201510778306.4
  • 朴晟秀 - 现代自动车株式会社
  • 2015-11-12 - 2021-05-25 - G10L15/07
  • 本申请公开了语音识别系统及语音识别方法。一种语音识别系统包括:收集器,用于收集说话者的语音数据;发音方式分类器,用于提取说话者的语音数据的特征点,并且选择对应于特征点的发音方式模型;参数调整器,用于通过使用所选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准;以及语音识别引擎,用于基于调整的参数来识别说话者的语音指令。
  • 控制装置-202011081898.1
  • 尾中润一郎;木下博史 - 本田技研工业株式会社
  • 2020-10-12 - 2021-04-20 - G10L15/07
  • 本发明能够比较简便地实现车内环境的控制。本发明涉及一种控制装置,其是用于控制车载装置的输出值的控制装置,该控制装置具备:解析单元,其解析乘员的发言内容;以及输出控制单元,其构成为能够基于所述解析单元所做出的解析结果而执行所述输出值的变更的开始以及停止。
  • 语音识别方法、装置、电子设备和存储介质-202011604891.3
  • 万根顺;高建清;刘聪;王智国;胡国平 - 科大讯飞股份有限公司
  • 2020-12-30 - 2021-04-02 - G10L15/07
  • 本发明实施例提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的语音数据;基于经训练的语音识别模型,确定语音数据的语音识别结果;其中,语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互,或,将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互,得到语音数据的说话人特征,并基于语音数据的语音特征和说话人特征,对语音数据进行语音识别。本发明实施例提供的语音识别方法、装置、电子设备和存储介质,提高了说话人自适应的实时性和效果,有助于提高多人会话场景下的语音识别准确性。
  • 语音交互方法及系统-201810391325.5
  • 李彦孚 - 京东方科技集团股份有限公司
  • 2018-04-27 - 2021-02-12 - G10L15/07
  • 本发明涉及一种语音交互方法及系统,所述语音交互方法,包括:获取多媒体信息,并根据多媒体信息确定进行语音交互的当前用户;根据多媒体信息确定当前用户所属群体的群体标识;根据群体标识确定对应的语音交互策略;根据语音交互策略执行语音交互功能。根据本发明的实施例,可以根据用户所属的群体确定语音交互策略,使语音交互方式具备针对性,进而可以提升用户使用体验。
  • 针对用户个性化服务的语音处理方法及装置-202011014640.X
  • 陈明佳 - 苏州思必驰信息科技有限公司
  • 2020-09-24 - 2021-01-05 - G10L15/07
  • 本发明公开一种针对用户个性化服务的语音交互方法及装置。在该方法中,获取用户个性化语音服务请求;确定所述用户个性化语音服务请求所对应的目标用户声纹信息;根据所述目标用户声纹信息,确定相应的目标用户语音模型;基于所述目标用户语音模型处理所述用户个性化语音服务请求。由此,利用用户声纹信息来自适应地确定用户语音模型,可以实现较高性能的用户个性化语音服务。
  • 语音识别方法、装置、移动终端及计算机可读存储介质-202010734647.2
  • 张刘立 - 中国平安财产保险股份有限公司
  • 2020-07-27 - 2020-10-20 - G10L15/07
  • 本申请涉及人工智能和语音处理,提供一种语音识别方法、装置、移动终端及计算机可读存储介质,该方法包括:以间隔第一预设时间确定所述移动终端是否处于定位盲区;当确定所述移动终端处于定位盲区时,以间隔第二预设时间基于所述移动终端的传感器数据更新所述移动终端的历史位置信息;当获取到用户的语音数据时,若所述移动终端仍处于定位盲区,则根据更新后的历史位置信息,获取目标语音识别模型;根据所述目标语音识别模型对所述语音数据进行识别,得到所述语音数据对应的标准普通话文本。本申请能够解决移动终端位于定位盲区时,无法定位移动终端的位置信息,进而无法保证语音识别的准确率的问题。
  • 语音处理系统和方法-201410419320.0
  • 陈浪舟 - 株式会社东芝
  • 2014-08-22 - 2019-07-12 - G10L15/07
  • 一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
  • 语音信息获取方法及装置-201811239529.3
  • 慈中华 - 慈中华
  • 2018-10-23 - 2019-02-01 - G10L15/07
  • 本申请的提供一种通过量化输入语音指标,以减少个体差异影响的语音获取方法和装置。该方法包括:显示第一提示语并且开始接收用户的第一输入语音;当接收到用户的第一输入语音之后,将接收到的第一输入语音识别为第一用户语;将所述第一用户语与第一提示语进行对比;如果所述第一用户语与第一提示语匹配,则显示第二提示语并且开始接收用户的第二输入语音;当接收到用户的第二输入语音之后,将接收到的第二输入语音识别为第二用户语;将所述第二用户语与第二提示语进行对比;将所述第一输入语音和第二输入语音整合成一条录音文件并且将该录音文件进行保存。该方法可以准确、完整且便捷地采集将用户的声音,以便后续的分析辨识。
  • 语音识别方法及相关产品-201710401787.6
  • 白剑 - 广东欧珀移动通信有限公司
  • 2017-05-31 - 2017-11-03 - G10L15/07
  • 本发明实施例公开了语音识别方法及相关产品,其中方法包括终端设备提示输入语音后,采集语音数据;使用至少一种识别算法获得至少两种识别结果,输出所述至少两种识别结果;获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。通过提示用户输入语音后,采集用户输入的语音数据,然后采用一种或者多种算法得到了两种以上的识别结果,然后通过用户确认的更为准确的识别结果可以确定哪一种算法更好;该方案极为适合例如手机等较为私人或者口音类似的用户使用,可以在保证识别速度的前提下,提高非标准语音的识别的准确率。
  • 语音识别方法以及装置-201510558047.4
  • 杜念冬;邹赛赛;谢延 - 百度在线网络技术(北京)有限公司
  • 2015-09-02 - 2017-10-31 - G10L15/07
  • 本发明公开了一种语音识别方法以及装置,其中方法包括获取说话人输入的语音信息,并获取说话人的说话人信息;根据说话人信息判断是否存在与说话人对应的个人声学模型;如果存在,则获取的个人声学模型,并根据说话人的个人声学模型对语音信息进行语音识别;如果不存在,则根据基础声学模型对语音信息进行语音识别,并根据语音信息生成说话人的语料信息并存储;以及根据基础声学模型和存储的语料信息生成说话人的个人声学模型。该方法可以基于说话人自适应的语音识别过程能够针对每个说话人的特点,定制他们的声学模型,从而提高每个说话人的准确度,提升了用户体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top