[发明专利]语音检测的方法和装置有效
申请号: | 201880000470.4 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110537223B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 郭红敬;李国梁;王鑫山;杨柯;朱虎 | 申请(专利权)人: | 深圳市汇顶科技股份有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 孙涛;毛威 |
地址: | 518045 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种语音检测的方法和装置,该方法包括:确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,N为正整数(S110);根据N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,初始的候选噪声集合中的分组的最大能量小于初始的候选语音集合中的分组的最小能量(S120);根据初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限(S130);根据初始的候选语音集合以及初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,第一次迭代处理的候选噪声集合中的分组的能量均小于或等于初始的噪声门限,第一次迭代处理的候选语音集合中的分组的能量均大于初始的噪声门限(S140)。 | ||
搜索关键词: | 语音 检测 方法 装置 | ||
【主权项】:
PCT国内申请,权利要求书已公开。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市汇顶科技股份有限公司,未经深圳市汇顶科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880000470.4/,转载请声明来源钻瓜专利网。
- 同类专利
- 学习装置、声音区间检测装置及声音区间检测方法-201880089324.3
- 花泽利行 - 三菱电机株式会社
- 2018-02-20 - 2023-08-15 - G10L25/78
- 使用在输入信号为噪声的时间区间学习的噪声的高斯混合模型,来修正作为噪声和声音的判别尺度的声音度,基于修正后的声音度来检测声音区间。
- 信息处理装置及非易失性存储介质-202080005757.3
- 千葉俊一 - 海信视像科技股份有限公司;东芝视频解决方案株式会社
- 2020-10-26 - 2023-06-27 - G10L25/78
- 本发明涉及信息处理装置及非易失性存储介质,其对为了检测触发词而尝试的用户的判断进行辅助。实施方式的信息处理装置具备:获取部,其将输入到声音输入部的用户的声音作为声音信号进行获取;得分计算部,其计算声音信号相对于声音数据的得分,所述得分成为用于从声音信号中检测触发词的基准,所述触发词用于使声音识别服务开始;以及显示控制部,其将得分显示在显示部上。
- 自适应噪声估计-202180064939.2
- D·斯卡伊尼;叶宗鑫;G·琴加莱;M·D·德伯格 - 杜比实验室特许公司;杜比国际公司
- 2021-09-21 - 2023-06-23 - G10L25/78
- 在一些实施例中,一种方法包括:使用至少一个处理器将音频输入划分为语音片段和非语音片段;对于每个非语音片段中的每个帧,使用至少一个处理器估计非语音片段的时变噪声频谱;对于每个语音片段中的每个帧,使用至少一个处理器估计语音片段的语音频谱;对于每个语音片段中的每个帧,识别语音频谱中的一个或多个非语音频率分量;将一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较;以及基于比较的结果,从多个估计的噪声频谱中选择估计的噪声频谱。
- 用于语音和音乐录音的嗡嗡噪声检测和去除-202180058376.6
- C·叶赫 - 杜比国际公司
- 2021-07-28 - 2023-05-02 - G10L25/78
- 描述了处理音频数据以进行嗡嗡噪声检测和/或去除的方法。音频数据包括多个帧。一种方法包括:使用一个或多个内容活动检测器将音频数据的帧分类为内容帧或噪声帧;根据音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱;基于所确定的噪声频谱确定一个或多个嗡嗡噪声频率;基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号;以及基于估计的嗡嗡噪声信号从音频数据的至少一个帧中去除嗡嗡噪声。还描述了用于执行方法的装置、以及对应程序和计算机可读存储介质。
- 上下文感知的基于硬件的语音活动检测-202180037137.2
- R·李;X·陈;M·贾维斯 - 高通股份有限公司
- 2021-05-24 - 2023-02-03 - G10L25/78
- 本公开的某些方面提供了一种用于执行语音活动检测的方法,包括:从电子设备的音频源接收音频数据;使用基于硬件的特征生成器基于所接收的音频数据来生成多个模型输入特征;向基于硬件的语音活动检测模型提供该多个模型输入特征;从该基于硬件的语音活动检测模型接收输出值;以及基于该输出值来确定该音频数据中的语音活动的存在。
- 具有用户自己的语音记录的可穿戴音频设备-202180037539.2
- F·拉贝格;K·P·安努奇托 - 伯斯有限公司
- 2021-04-26 - 2023-02-03 - G10L25/78
- 各种具体实施包括可穿戴音频设备,该可穿戴音频设备被配置为记录用户的语音,而不记录其他环境声学信号,诸如附近其他人的谈话。在一些特定方面,一种可穿戴音频设备包括:框架,该框架用于接触用户的头部;电声换能器,该电声换能器位于该框架内并且被配置为输出音频信号;至少一个麦克风;语音活动检测(VAD)加速度计;以及控制器,该控制器与该电声换能器、该至少一个麦克风和该VAD加速度计耦接并且在第一模式下被配置为:检测该用户正在讲话;以及响应于检测到该用户正在讲话,仅使用来自该VAD加速度计的信号来记录该用户的语音。
- 语音活动检测方法和装置-202080101920.6
- 柯波;任博;鄢展鹏;王纪会 - 华为技术有限公司
- 2020-06-16 - 2023-02-03 - G10L25/78
- 一种语音活动检测方法和装置,涉及语音检测领域,用于提高VAD的准确率。语音活动检测方法包括:按帧获取N路音频数据,其中,N为大于或等于2的整数(S501);针对每一帧,计算每路音频数据在高频子带的自相关系数(S502);针对每一帧,根据N路音频数据的自相关系数,选择对N路音频数据中的至少一路音频数据进行VAD(S503)。
- 用于目标声音检测的方法及装备-202180024648.0
- P·库尔卡尼;Y·郭;E·维斯 - 高通股份有限公司
- 2021-03-01 - 2022-11-11 - G10L25/78
- 一种用于执行目标声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器、以及目标声音检测器。该目标声音检测器包括第一级和第二级。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。
- 使用闭塞耳的入耳式麦克风信号的用户话音检测器装置和方法-202080095245.0
- 哈密·蒙萨拉特-佳能 - EERS全球科技股份有限公司
- 2020-12-03 - 2022-09-09 - G10L25/78
- 一种用于检测耳内装置的用户的话音的装置和方法。所述耳内装置具有入耳式麦克风,所述入耳式麦克风适于与所述用户的被阻隔于耳外部的环境的外耳道流体连通。获得由所述入耳式麦克风提供的信号以确定获取的话音指示信号,以及通过将所述获取的话音指示信号与对应阈值进行比较,在所述获取的话音指示信号大于所述对应阈值后即刻检测由所述用户产生的话音。虽然所述方法还减少来自非用户的任何话音干扰,但当从所述耳内装置的外耳麦克风捕获非用户话音时结果改善。
- 背景噪声估计和语音活动检测系统-202080090845.8
- A·S·乔格卡尔;C·K·瑟图科四世;D·P·马吉 - 德克萨斯仪器股份有限公司
- 2020-12-23 - 2022-08-19 - G10L25/78
- 一种方法包括选择(304)音频信号的帧。该方法还包括确定(308)帧的第一功率谱密度(PSD)分布。该方法还包括基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成(310)指示帧中的背景噪声的估计的第一参考PSD分布。该方法还包括基于帧的第一PSD分布和第一参考PSD分布确定(320)是否在帧中检测到语音活动。
- 信息处理装置、检测方法和检测程序-201980102693.6
- 花泽利行 - 三菱电机株式会社
- 2019-12-13 - 2022-07-12 - G10L25/78
- 信息处理装置(100)具有:取得部(110),其取得声音信号;以及控制部(120),其将声音信号分割成多个区间,根据声音信号计算多个区间各自的每区间时间的变动量即变动值,在多个区间中确定变动值为预先设定的阈值以下的区间,根据声音信号计算所确定的区间中的声音信号的功率,从所确定的区间中的声音信号的功率中确定最大值,将基于最大值的值设定为检测阈值,在伴随着时间经过的声音信号的功率中,检测检测阈值以上的区间作为检测对象区间。
- 语音检测的方法和装置-201880000470.4
- 郭红敬;李国梁;王鑫山;杨柯;朱虎 - 深圳市汇顶科技股份有限公司
- 2018-03-26 - 2022-07-05 - G10L25/78
- 一种语音检测的方法和装置,该方法包括:确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,N为正整数(S110);根据N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,初始的候选噪声集合中的分组的最大能量小于初始的候选语音集合中的分组的最小能量(S120);根据初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限(S130);根据初始的候选语音集合以及初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,第一次迭代处理的候选噪声集合中的分组的能量均小于或等于初始的噪声门限,第一次迭代处理的候选语音集合中的分组的能量均大于初始的噪声门限(S140)。
- 确定用于语音处理引擎的输入-202080031993.2
- A·R·希德;C·N·莱德 - 奇跃公司
- 2020-02-28 - 2021-12-03 - G10L25/78
- 公开了一种向语音处理引擎呈现信号的方法。根据该方法的示例,经由麦克风接收音频信号。识别音频信号的一部分,并且确定该部分包括由语音处理引擎的用户将其作为输入定向到语音处理引擎的语音的概率。根据概率超过阈值的确定,音频信号的部分作为输入呈现给语音处理引擎。根据概率不超过阈值的确定,音频信号的部分不作为输入呈现给语音处理引擎。
- 语音活动检测-201680031356.9
- 塔拉·N·赛纳特;加博尔·希姆科;马里亚·卡罗来纳·帕拉达·桑马丁;鲁本·扎佐坎迪尔 - 谷歌有限责任公司
- 2016-07-22 - 2021-10-01 - G10L25/78
- 用于检测语音活动的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括以下动作:通过自动化语音活动检测系统中所包括的神经网络接收原始音频波形、通过所述神经网络处理所述原始音频波形以确定所述音频波形是否包括话音以及通过所述神经网络提供指示所述原始音频波形是否包括话音的所述原始音频波形的分类。
- 用于语音检测的方法和系统-201980090971.0
- B·斯蒂尔;D·沃茨 - 思睿逻辑国际半导体有限公司
- 2019-12-10 - 2021-09-10 - G10L25/78
- 实施方案总体涉及一种设备,包括:至少一个信号输入部件,用于从耳塞的骨传导信号传感器接收骨传导信号;存储可执行代码的存储器;以及,处理器,被配置为访问存储器且执行可执行代码。执行可执行代码导致处理器:接收骨传导信号;确定用于所接收的骨传导信号的至少一个语音度量,其中语音度量基于骨传导信号的输入水平和用于骨传导信号的噪声估计;至少部分地基于对语音度量与语音度量阈值的比较,更新语音确定性指示符,该语音确定性指示符指示骨传导信号中存在语音的确定性的水平;基于语音确定性指示符来更新至少一个信号衰减因子;以及,通过对语音水平估计应用信号衰减因子来生成更新的语音水平估计输出。
- 用于基于多个音频馈源来标识来自兴趣源的声音的方法和系统-201680058801.0
- S·扎德伊萨 - 微软技术许可有限责任公司
- 2016-09-14 - 2021-08-24 - G10L25/78
- 本文提供了用于标识来自兴趣源的声音的方法和系统。在一些实施例中,第一音频馈源由第一话筒捕捉,而第二音频馈源由第二话筒捕捉。第一话筒可以比第二话筒更邻近兴趣源。第一音频馈源可利用第二音频馈源来处理以产生可使得能够标识源自兴趣源的声音的第一经处理音频馈源。在一些实施例中,第二音频馈源可利用第一音频馈源来进行附加处理以产生第二经处理音频馈源。在此类实施例中,来自第一经处理音频馈源的频率可以与第二经处理音频馈源的频率进行对比以标识源自兴趣源的声音。本文可描述和/或主张其它实施例。
- 用于具有可变麦克风阵列定向的耳机的双麦克风语音处理-201880037776.7
- 山缪尔·P·爱贝耐泽尔;拉奇德·克考德 - 思睿逻辑国际半导体有限公司
- 2018-05-11 - 2021-05-04 - G10L25/78
- 根据本公开的实施例,提供了语音处理的方法,用于具有多个麦克风的阵列的音频设备中,其中阵列能够具有相对于阵列的用户的多个位置定向。方法可包括周期性地计算多个归一化互相关函数,每个互相关函数对应于阵列相对于期望话音源的可能定向;基于多个归一化互相关函数,确定阵列相对于期望话音源的定向;基于多个归一化互相关函数,检测阵列的定向的改变;以及响应于定向的改变,动态地修改音频设备的语音处理参数,使得保留来自期望话音源的话音同时降低干扰声音。
- 用于头戴式受话器的使用麦克风信号频域表示的声控声音编码-201980022335.4
- 斯特凡·M·阿佩尔奎斯特;维贾伊·K·季德拉;埃布尔·格拉德斯通·曼加姆;罗格·希尔贝格 - 3M创新有限公司
- 2019-03-26 - 2020-11-10 - G10L25/78
- 本发明公开了一种声控编码方法,所述方法包括基于来自语音麦克风的语音信号的频域表示来确定语音功率参数。所述方法包括基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数。所述方法还包括响应于将功率参数与阈值进行比较来基于所述语音信号启用对音频信号的编码。包括控制器的头戴式受话器可使用所述方法来确定是启用还是禁用对到另一装置的音频信号的编码、传输或两者。
- 控制计算装置的语音辨识过程-201480064081.X
- 朴基炫;郑玄旭;阿拉温德·桑卡兰;帕拉舒拉姆·卡达迪 - 高通股份有限公司
- 2014-12-08 - 2019-08-20 - G10L25/78
- 本发明提供用于控制计算装置上的语音辨识过程的方法、系统及装置。计算装置可从麦克风接收音频信号且从例如肌电图传感器等肌肉移动检测器接收肌肉移动信号。所述计算装置可确定所述音频信号是否满足指示语音的音频特性准则且所述头部肌肉活动信号是否满足指示用户说话的肌肉移动准则。所述计算装置可响应于确定所述音频信号及所述头部肌肉活动信号两者满足它们的指示所述用户说话的相应准则而执行通过话音辨识算法对所述音频信号的话音辨识处理,且在音频信号或头部肌肉活动信号不满足它们的指示所述用户说话的相应准则时不执行对音频信号的话音辨识处理。
- 估计音频信号中的背景噪声-201480067985.8
- 马丁·绍尔斯戴德 - 瑞典爱立信有限公司
- 2014-12-01 - 2019-06-28 - G10L25/78
- 本发明涉及一种背景噪声估计器及其中的方法,用于支持在音频信号分段中进行声音活动检测。所述方法包括:当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。以上操作在以下情况下执行:当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时,或者当音频信号分段的能量水平与lt_min的差小于阈值,但是在音频信号分段中没有检测到停顿时,其中,所述lt_min是多个在先音频信号分段所确定的。执行所述方法与现有技术相比实现基于背景噪声估计的更准确的声音活动检测。
- 解码器之后的音频信号分类和后处理-201680052076.6
- 苏巴辛格哈·夏敏达·苏巴辛格哈;维韦克·拉金德朗;文卡塔·萨伯拉曼亚姆·强卓·赛克哈尔·奇比亚姆;文卡特拉曼·阿蒂;普拉文·库马尔·拉马达斯;丹尼尔·贾里德·辛德尔;斯特凡那·皮埃尔·维莱特 - 高通股份有限公司
- 2016-08-11 - 2019-05-31 - G10L25/78
- 一种装置包含解码器,所述解码器配置成在解码器处接收经编码音频信号并基于所述经编码音频信号而产生合成信号。所述装置进一步包含分类器,所述分类器配置成基于从所述经编码音频信号确定的至少一个参数而对所述合成信号进行分类。
- 在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序-201280070157.0
- A.纳格尔;C.兰布林 - 奥林奇公司
- 2012-12-11 - 2018-08-28 - G10L25/78
- 本发明涉及一种在之前已经根据数据块序列(B1,B2,…,Bz)来编码的音频数据信号中检测预定频带的方法,其中至少特定的块分别包含表示线性预测滤波器的频谱参数的至少一个集合。针对所述至少特定块中的当前块,并且就此所述集合中的至少多个频谱参数之前已被解码,该检测方法实现下列步骤:‑在所述多个之前已解码频谱参数中确定(S1)与阈值频率最接近的第一频谱参数的索引,‑基于所述确定的索引来计算(S2)至少一个标准,‑根据计算的标准来判定(S3)是否在所述当前块中检测到所述预定频带。
- 用于提供通知的多信道语音存在概率估计的装置和方法-201280076853.2
- 埃马努埃尔·哈贝茨;马亚·塔塞斯卡 - 弗劳恩霍夫应用研究促进协会
- 2012-09-03 - 2017-11-28 - G10L25/78
- 提供一种用于提供语音概率估计的装置。所述装置包括用于估计表示场景的声场是否包括语音或场景的声场是否不包括语音的第一概率的语音概率信息的第一语音概率估计器(110)。另外,所述装置包括用于根据所述语音概率信息输出语音概率估计的输出接口(120)。所述第一语音概率估计器(110)配置为至少基于关于声场的空间信息或场景的空间信息估计第一语音概率信息。
- 用于语音活动性检测的方法和设备-201380044957.X
- 马丁·绍尔斯戴德 - 瑞典爱立信有限公司
- 2013-08-30 - 2017-07-04 - G10L25/78
- 根据本发明的示例性实施例,公开了一种用于语音活动性检测(VAD)的方法和设备。VAD包括创建指示初级VAD判决的信号;以及确定尾响添加。尾响添加的确定是根据短期活动性测量和/或长期活动性测量作出的。然后,创建指示最终VAD判决的信号。
- 专利分类