[发明专利]基于噪声指标和语音可懂度指标来调整音频和非音频特征在审

专利信息
申请号: 202080085359.7 申请日: 2020-12-09
公开(公告)号: CN114830233A 公开(公告)日: 2022-07-29
发明(设计)人: T·A·波特;D·S·坦普尔顿;J·G·海斯;D·M·库珀 申请(专利权)人: 杜比实验室特许公司
主分类号: G10L21/0364 分类号: G10L21/0364;G10L25/48;H04S7/00;H04N21/488;H04N21/434;G11B27/031;H04R5/04;H04N5/445;G10L25/60;G10L19/16
代理公司: 北京市汉坤律师事务所 11602 代理人: 魏小薇;吴丽丽
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 一些实施方式涉及确定噪声指标和/或语音可懂度指标以及确定与噪声指标和/或语音可懂度指标相对应的补偿过程。补偿过程可以涉及更改对音频数据的处理和/或应用基于非音频的补偿方法。在一些示例中,更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。一些示例涉及在音频环境中应用补偿过程。其他示例涉及确定与补偿过程相对应的补偿元数据以及将包括经编码补偿元数据、经编码视频数据和经编码音频数据的经编码内容流从第一设备传输到一个或多个其他设备。
搜索关键词: 基于 噪声 指标 语音 可懂度 调整 音频 特征
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比实验室特许公司,未经杜比实验室特许公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202080085359.7/,转载请声明来源钻瓜专利网。

同类专利
  • 基于蛙人对讲的语音质量增强方法-202310876048.8
  • 王银畦;王涛 - 山东贝宁电子科技开发有限公司
  • 2023-07-18 - 2023-09-22 - G10L21/0364
  • 基于蛙人对讲的语音质量增强方法,涉及语音通信技术领域,获取蛙人的语音特征并录入语音库中,根据蛙人的语音识别信息建立双向信息传输通道,并根据双向信息传输通道距离确定不同语音传输距离的噪声信号在含噪语音信号中所占比例;并设置语音清晰度的评价指标;预先设置蛙人通信目标期望语音清晰度评价指标,并根据通信过程中的语音清晰度与期望语音清晰度评价指标的比较结果动态调整平均窗函数长度,并基于人耳声音频率掩蔽特征对含噪语音设置频率门限,获取经过频率门限过滤的含噪语音的语音特征输入至语音播报端中,语音播报端根据语音特征生成符合蛙人期望通信目标语音清晰度的语音信息显著地提高了蛙人对讲场景下的语音质量。
  • 水下蛙人语音通信质量增强处理方法-202310708183.1
  • 王涛;王世豪 - 山东贝宁电子科技开发有限公司
  • 2023-06-15 - 2023-08-29 - G10L21/0364
  • 本发明公开了水下蛙人语音通信质量增强处理方法,涉及语音通信技术领域,基于AI语音训练模型获取语音通信包,其中,所述语音通信包包括音色特征、咬字特征与音调特征作为语音特征,建立语音通信包身份信息,根据语音通信包身份信息端设立语音采集端;所述语音通信包引入语音识别中,构建AI语音识别处理模型,获取语音采集端的语音,得到语音信息;搭建所述语音通信包的通信传输通道,通过所述通信传输通道互联所述语音采集端,获取所述通信传输通道,确定通信的所述语音采集端。本发明能够通过音色特征、咬字特征与音调特征判断目标人员的身份,在保证传输不存在杂音的同时,也做到真实的语音交流。
  • 语音内容的自动调平-202180024596.7
  • C·叶赫;G·琴加莱;M·D·德伯格 - 杜比实验室特许公司;杜比国际公司
  • 2021-03-25 - 2022-11-11 - G10L21/0364
  • 公开了用于语音内容的自动调平的实施例。在实施例中,一种方法包括:使用一个或多个处理器来接收包括语音内容和非语音内容的音频录音的帧;对于每一帧:使用所述一个或多个处理器来确定语音概率;使用所述一个或多个处理器来分析所述帧的感知响度;使用所述一个或多个处理器来获得所述帧的目标响度范围;使用所述一个或多个处理器基于所述目标响度范围和所述感知响度分析来计算要应用于所述帧的增益,其中,所述增益包括逐帧变化并且基于所述语音概率进行缩放的动态增益;以及将所述增益应用于所述帧,使得所述音频录音中的语音内容的所得响度范围符合于所述目标响度范围内。
  • 基于物联网的防护服用移动终端通信系统-202210190233.7
  • 陈耀华;陈潇潇;毛昺昊;陈曦 - 安徽上造智能设备科技有限公司
  • 2022-02-28 - 2022-07-08 - G10L21/0364
  • 本发明涉及防护服领域,用于解决现有的防护服给医护人员的沟通带来了非常大难度,导致医护人员与患者之间以及医护人员之间不能及时准确的传达自己所表达的信息,而且佩戴耳麦后不能有选择性的传递信息和智能化调节音量,导致医护人员长时间受到噪音污染,影响身体健康的问题,具体涉及基于物联网的防护服用移动终端通信系统,包括数据采集模块、处理器、终端操作模块、语音调节模块以及语音接收模块;该移动终端通信系统能够使得防护服使用者所需要传递的信息及时、准确并以合适的音量向其他人传递,能够使得接收信息的人员能够在不同条件下均能准确的接收到信息,能够确保使用者以合适的音量外界的声音,提高了使用者的使用舒适度。
  • 一种幅度相位混合特征交叉的语音增强方法-202210071449.1
  • 卿朝进;付小伟;唐书海;叶青;刘文慧;杨娜 - 西华大学
  • 2022-01-21 - 2022-05-24 - G10L21/0364
  • 本发明公开了一种基于幅度相位混合特征交叉的深度学习语音增强方法;根据收集到的含噪语音信号,得到增强型混合交叉特征;根据收集到的干净语音信号和与之对应的含噪语音信号,计算幅度相位降噪网络APNSN训练所用标签交叉压缩复数掩模;将增强型混合交叉特征输入到已训练的APNSN网络得到估计交叉压缩复数掩模;根据估计交叉压缩复数掩模和含噪语音信号的频谱,得到时域重构信号;本发明所采用方法,与单一特征方法相比,如幅度谱映射和基于幅度谱特征的时频掩蔽,本方法在相同模型大小的条件下能进一步提高语音质量和可懂度;在相对较小模型下能获得与单一特征方法相当的语音质量和可懂度。
  • 一种自适应语音增强的语音交互方法、系统及存储介质-202111393902.2
  • 李登实;叶海洋;赵兰馨;高雨;薛童;陈天卓;陈奥;何佳欣;吴梓煊 - 江汉大学
  • 2021-11-23 - 2022-05-10 - G10L21/0364
  • 本申请提供了一种自适应语音增强的语音交互方法,该方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型得到机器回复的文本文件;将机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取伦巴第语音音频的德语语料库作为训练数据集,采用训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将特征频谱包络MCCs特征和当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音。
  • 上下文感知语音可懂度增强-202080063374.1
  • D·诺;P·丘巴列夫;郭晓雨 - DTS公司
  • 2020-09-09 - 2022-04-26 - G10L21/0364
  • 一种方法包括:用麦克风检测环境中的噪声以产生噪声信号;接收要通过扬声器播放到环境中的语音信号;基于麦克风的麦克风传递函数执行噪声信号的多频带校正,以产生校正后的噪声信号;基于扬声器的扬声器传递函数执行语音信号的多频带校正,以产生校正后的语音信号;以及基于校正后的噪声信号和校正后的语音信号计算多频带语音可懂度结果。
  • 改进的语音可懂度-202111256933.3
  • 阿德里安·丹尼尔 - 汇顶科技(香港)有限公司
  • 2016-06-13 - 2021-12-21 - G10L21/0364
  • 本文公开了一种包括处理器和存储器的装置。存储器包括从采样环境噪声计算噪声频谱估值的噪声频谱估计器,从输入语音计算语音频谱估值的语音频谱估计器,使用在语音频谱中检测的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器。存储器还包括共振峰升高估计器,其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选目标值。
  • 改进的语音可懂度-201610412732.0
  • 阿德里安·丹尼尔 - 汇顶科技(香港)有限公司
  • 2016-06-13 - 2021-11-05 - G10L21/0364
  • 本文公开了一种包括处理器和存储器的装置。存储器包括从采样环境噪声计算噪声频谱估值的噪声频谱估计器,从输入语音计算语音频谱估值的语音频谱估计器,使用在语音频谱中检测的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器。存储器还包括共振峰升高估计器,其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选目标值。
  • 可提高语音识别率的语音采集处理方法及装置-201711160902.1
  • 平颖洁 - 云知声智能科技股份有限公司
  • 2017-11-20 - 2021-08-20 - G10L21/0364
  • 本发明是关于一种可提高语音识别率的语音采集处理方法及装置,其中,方法包括:通过多个语音采集装置采集当前语音信息;实时分析多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值;根据分析结果从多个语音采集装置中选择出强度值最高的目标语音采集装置;将目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理,将其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理。通过该技术方案,在用户移动过程中实时确定目标语音采集装置,对目标语音采集装置的强度值进行增强,对其他目标语音采集装置的强度值进行减弱,从而使得在对语音信息进行语音识别时,减少其他目标语音采集装置的噪声干扰,提高语音识别的准确率。
  • 高效DRC配置文件传输-202110526962.0
  • H·霍伊里奇;J·科喷斯 - 杜比国际公司
  • 2015-09-29 - 2021-08-13 - G10L21/0364
  • 本公开涉及高效DRC配置文件传输。描述了一种用于对编码音频信号进行解码的方法。编码音频信号包括帧序列,并且指示用于对应的多个不同渲染模式的多个不同的动态范围控制(DRC)配置文件。所述方法包括:从所述多个不同的渲染模式确定第一渲染模式;从帧序列的当前帧内所包括的DRC配置文件子集确定一个或多个DRC配置文件;确定所述一个或多个DRC配置文件中的至少一个是否适用于第一渲染模式;如果所述一个或多个DRC配置文件都不适用于第一渲染模式,则选择默认DRC配置文件作为当前DRC配置文件;其中,默认DRC配置文件的定义数据在解码器处是已知的;并且使用当前DRC配置文件对当前帧进行解码。
  • 高效DRC配置文件传输-202110526963.5
  • H·霍伊里奇;J·科喷斯 - 杜比国际公司
  • 2015-09-29 - 2021-08-13 - G10L21/0364
  • 本公开涉及高效DRC配置文件传输。描述了一种用于对编码音频信号进行解码的方法。编码音频信号包括帧序列,并且指示用于对应的多个不同渲染模式的多个不同的动态范围控制(DRC)配置文件。所述方法包括:从所述多个不同的渲染模式确定第一渲染模式;从帧序列的当前帧内所包括的DRC配置文件子集确定一个或多个DRC配置文件;确定所述一个或多个DRC配置文件中的至少一个是否适用于第一渲染模式;如果所述一个或多个DRC配置文件都不适用于第一渲染模式,则选择默认DRC配置文件作为当前DRC配置文件;其中,默认DRC配置文件的定义数据在解码器处是已知的;并且使用当前DRC配置文件对当前帧进行解码。
  • 高效DRC配置文件传输-202110527052.4
  • H·霍伊里奇;J·科喷斯 - 杜比国际公司
  • 2015-09-29 - 2021-08-13 - G10L21/0364
  • 本公开涉及高效DRC配置文件传输。描述了一种用于对编码音频信号进行解码的方法。编码音频信号包括帧序列,并且指示用于对应的多个不同渲染模式的多个不同的动态范围控制(DRC)配置文件。所述方法包括:从所述多个不同的渲染模式确定第一渲染模式;从帧序列的当前帧内所包括的DRC配置文件子集确定一个或多个DRC配置文件;确定所述一个或多个DRC配置文件中的至少一个是否适用于第一渲染模式;如果所述一个或多个DRC配置文件都不适用于第一渲染模式,则选择默认DRC配置文件作为当前DRC配置文件;其中,默认DRC配置文件的定义数据在解码器处是已知的;并且使用当前DRC配置文件对当前帧进行解码。
  • 语音信号的处理方法及装置-201510741057.1
  • 袁豪磊 - 腾讯科技(深圳)有限公司
  • 2015-11-04 - 2018-12-28 - G10L21/0364
  • 本发明公开了一种语音信号的处理方法及装置,属于终端技术领域。所述方法包括:从近端采集录音信号并接收对端发送的播音信号,录音信号中至少包括噪声信号及回声信号;根据录音信号和播音信号,计算环路传递函数;计算录音信号的功率谱;根据录音信号的功率谱、播音信号及环路传递函数,计算回声信号的功率谱和噪声信号的功率谱;根据回声信号的功率谱和噪声信号的功率谱,计算频率加重系数;基于频率加重系数,对播音信号的频点幅值进行调节;输出调节后的播音信号。本发明在确保扬声器不过载,且不破坏原始播音信号的动态幅度的前提下,自动根据噪声信号与播音信号的频率分布,调整播音信号的频点幅值,明显提高了语音可懂度。
  • 音频信号的处理方法和装置-201310676820.8
  • 何文辉;高伟标;刘飞祥 - 深圳TCL新技术有限公司
  • 2013-12-11 - 2017-07-28 - G10L21/0364
  • 本发明公开了音频信号的处理方法和装置,该方法包括根据设定的时间间隔依次获取音频信号每个时间点幅度采样值,获取幅度采样值时比较幅度采用值的大小;若当前时间点幅度采样值大于或等于上一时间点的幅度平均值,则通过Xpi=A*|Xi|+(1‑A)*Xp(i‑1)计算当前时间点的幅度平均值;若小于上一时间点的幅度平均值,则通过Xpi=(1‑R)*Xp(i‑1)计算当前时间点幅度平均值。本发明所提供的音频信号的处理方法和装置,计算出的幅度动态平均值所涉及的数据量少,运算简单,无需存储大量的相关数据,在保证计算出的各频段的幅度动态平均值符合人耳特性要求的基础上,节约了大量的数据存储空间。
  • 一种提高语音识别度的方法及装置-201610970632.X
  • 童平;林建森 - 厦门盈趣科技股份有限公司
  • 2016-11-04 - 2017-01-18 - G10L21/0364
  • 本发明涉及语音处理技术领域,特别地涉及一种提高语音识别度的方法及装置。本发明公开了一种提高语音识别度的方法,包括如下步骤S1,获取语音信号,进入步骤S2;S2,对语音信号中的预定低频噪音部分和高频噪音部分进行衰减,得到中间频段的语音信号,进入步骤S3;S3,将语音信号与预设的标准信号值进行对比,当语音信号小于标准信号值时,对语音信号进行增益放大;当语音信号大于标准信号值时,对语音信号进行增益减小。本发明还公开了一种提高语音识别度的装置。本发明提高了语音识别度,降低了环境噪音,保证了远距离高标准的拾音质量,且麦克风数量少,成本较低,变化灵活。
  • 处理音轨的方法-201510385470.9
  • 张天慈;张朝鹰 - 张天慈;张朝鹰
  • 2015-06-30 - 2017-01-11 - G10L21/0364
  • 本发明提供一种处理音轨的方法,其先提供可听频率范围的低频界线与高频界线;之后在原始声音音轨内,从原始声音音轨的最低频率至低频界线中设定低音声音频带,并以预定频率位移量升高低音声音频带为修改后的低音声音频带;或从高频界线至原始声音音轨的最高频率中设定高音声音频带,并以预定频率位移量降低高音声音频带为修改后的高音声音频带;接着结合原始声音音轨及修改过的低音声音频带;或结合原始声音音轨及修改过的高音声音频带;低频界线与高频界线彼此无关联,预定频率位移量为一个或多个八度音,或为2n倍,n为正整数或负整数。借此,本发明的方法可同步结合声音以提升声音的可听度且不会产生干扰。
  • 用于运行听力设备的方法以及听力设备-201180071836.5
  • S·阿勒格罗-鲍曼;R·P·德尔莱斯;S·贾哈 - 索诺瓦公司
  • 2011-06-23 - 2016-10-19 - G10L21/0364
  • 一种通过对听力设备的输入信号应用频率换位方案来运行听力设备的方法,所述听力设备包括输入换能器、信号处理单元和输出换能器,所述方法包括如下步骤:通过应用变换函数将所述输入信号从时域变换到频域以获得输入频谱,所述输入频谱具有包括源区(20)和目的区(30)的频率范围;考虑到所述输入信号的瞬时特性来适应性地选择所述源区(20)的信号分量;将所选择的信号分量调换到所述目的区(30);以及将输出频谱或输出频谱的变换提供到所述输出换能器,所述输出频谱包括所述目的区(30)的信号分量。
  • 用于在电话系统和移动电话装置中补偿听力损失的方法-201480043111.9
  • A·Y·布莱帝希恩;M·I·瓦什凯维赫;I·S·阿扎罗夫;A·A·彼得罗夫斯基 - A·Y·布莱帝希恩
  • 2014-04-23 - 2016-04-27 - G10L21/0364
  • 本方法可以为听力受损的用户扩展在移动电话装置和通信系统中的功能可能性,并且可以提升声音质量以及语音可理解度。在该方法中,所述的技术效果是如下实现的,基于从存储在通信网络的服务器上的数据库中并与听力受损用户的电话号码绑定的听力受损用户的听力图、即频率特性中接收到的属性,产生用于听力受损的用户的个性化音频信号(A)。在服务器上基于听力受损用户的听力属性而在宽带频率范围中对A进行处理,依照听力受损用户的属性来调节经过处理的音频信号的功率,并且将经过调节的个性化音频信号从通信服务器传送到听力受损用户的电话装置。所使用的通信网络是蜂窝网络,并且所使用的电话装置是移动电话装置(MTA)。实施将移动电话和听力设备的功能结合的模式。
  • 语音活动检测器-201420687581.6
  • 埃里克·知念·金 - 艾利佛公司
  • 2012-01-10 - 2015-12-09 - G10L21/0364
  • 本实用新型涉及一种语音活动检测器,包括:接收第一信号的第一检测器;接收不同于所述第一信号的第二信号的第二检测器;第一语音活动检测器部件,所述第一语音活动检测器部件被耦接到所述第一检测器和所述第二检测器;第二语音活动检测器部件,所述第二语音活动检测器部件被耦接到所述第二检测器;接触检测器,所述接触检测器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件;以及选择器,所述选择器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件。本实用新型处理接收到的语音信号以维持和增强语音清晰度。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top