[发明专利]利用频谱特性进行声音分析的改进的梅尔滤波器组结构有效
申请号: | 201380010272.3 | 申请日: | 2013-02-11 |
公开(公告)号: | CN104221079B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 吉滕德拉·贾殷;阿尼鲁达·辛哈 | 申请(专利权)人: | 塔塔顾问服务有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 余刚,吴孟秋 |
地址: | 印度*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了用于在多个其他动态变化的声音之中检测感兴趣的声音的系统和方法。频谱检测模块通过检测存在于声能的频谱中的主频谱能带来识别主频谱能量频率。通过根据所识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来设计改进的梅尔滤波器组。特征提取器从第一梅尔滤波器组、第二梅尔滤波器组以及改进的梅尔滤波器组提取被进一步分类的特征以检测感兴趣的声音。 | ||
搜索关键词: | 利用 频谱 特性 进行 声音 分析 改进 滤波器 结构 | ||
【主权项】:
一种用于在多个动态变化的声音之中检测感兴趣的声音的系统,所述系统包括:频谱检测模块,被配置为通过检测存在于所述变化的声音的声能的频谱中的主频谱能带来识别主频谱能量频率;第一梅尔滤波器组和第二梅尔滤波器组,均被配置为对声能的频带进行滤波以检测所述感兴趣的声音;改进的梅尔滤波器组,包括所述第一梅尔滤波器组和所述第二梅尔滤波器组的根据主频修改的频谱定位以检测动态变化的所述感兴趣的声音;特征提取器,与所述改进的梅尔滤波器组、所述第一梅尔滤波器组和所述第二梅尔滤波器组耦接,所述特征提取器被配置为提取从所述改进的梅尔滤波器组、所述第一梅尔滤波器组和所述第二梅尔滤波器组接收的声音的多个频谱特性;以及分类器,被训练成根据所述主频将所述声音的多个频谱特性进行分类以检测所述感兴趣的声音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔顾问服务有限公司,未经塔塔顾问服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201380010272.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 基于语音交互的搜索方法和装置-201611019821.5
- 郎文静;李裕东;朱群燕;石远 - 百度在线网络技术(北京)有限公司
- 2016-11-17 - 2019-11-08 - G10L15/08
- 本发明提出一种基于语音交互的搜索方法和装置,该基于语音交互的搜索方法包括根据用户提供的用于搜索的语音数据获取第一检索词,并获取为第一检索词的上文信息的多个第二检索词;根据第一检索词的第一分词结果和每个第二检索词的第二分词结果生成多种分词组合;根据每种分词组合的相关性评分,从多种分词组合中选择目标分词组合并作为第三检索词;根据第三检索词进行搜索。通过本发明能够结合语音搜索的上下文信息进行搜索,提升搜索精准度,提升用户搜索体验度。
- 人工智能操作系统-201910662279.2
- 何永兴 - 太仓市智威智能科技有限公司
- 2019-07-22 - 2019-10-25 - G10L15/08
- 本发明公开一种人工智能操作系统,所述人工智能操作系统包括语音识别模块、机器视觉模块、声音采集模块、执行器系统模块、认知行为系统模块,所述执行器系统模块连接所述语音识别模块、机器视觉模块、声音采集模块、认知行为系统模块,所述语音识别模块包括语音合成单元,语义理解单元、语音扩展单元,所述执行器系统模块包括文件系统单元、特征提取单元、进程管理单元、进程间通讯单元、内存管理单元、网络通讯单元、安全机制单元、驱动程序单元、用户界面单元、执行器系统单元,本发明提供一种人工智能操作系统,具有控制改变声音匹配模型和语言模型库,提高交互系统的交互识别正确率的优点。
- 一种电话录音数据的处理方法及系统-201210282728.9
- 高建清;王智国;何婷婷;胡国平;胡郁;刘庆峰 - 科大讯飞股份有限公司
- 2012-08-09 - 2019-10-18 - G10L15/08
- 本发明实施例公开了一种电话录音数据的处理方法,包括:对输入的源录音数据进行端点检测,获取有声数据;判断有声数据是否为无效数据,若是,则舍弃,否则,确定有声数据为语音数据;判断语音数据是否为异常数据,若是,则舍弃,否则,确定语音数据为有效语音数据。本发明公开的电话录音数据的处理方法,滤除了具有较高能量的噪声信号和异常语音信号,保证进入后续语音识别系统的数据的有效性,从而降低了后续语音识别过程的错误率,提高了语音识别的效率,同时通过端点检测确定有声数据的步骤,减小了运算量。本发明实施例还公开了一种电话录音数据的处理系统。
- 基于人工智能的语音搜索结果处理方法及装置-201610987508.4
- 徐昇;李裕东;李兵臣;陈锡彬 - 百度在线网络技术(北京)有限公司
- 2016-11-09 - 2019-10-15 - G10L15/08
- 本发明提出一种基于人工智能的语音搜索结果处理方法及装置,其中,方法包括:通过对用户的语音进行语音识别得到口语化搜索词,根据与口语化搜索词之间的相似度,从历史搜索所采用的书面化的候选搜索词中,选择出与用户需求匹配的目标搜索词,实现对语音搜索过程中的搜索词进行优化,使之符合书面语的表述方式,进而根据目标搜索词,对语音搜索的搜索结果进行优化处理,以提高搜索结果与搜索词之间的匹配度,解决现有技术中直接采用口语化搜索词进行搜索时,搜索效果较差的技术问题。
- 语音识别方法、装置、服务器和存储介质-201910578399.4
- 李扬 - 北京百度网讯科技有限公司
- 2019-06-28 - 2019-10-08 - G10L15/08
- 本发明实施例公开了一种语音识别方法、装置、服务器和存储介质。该方法包括:对当前用户语音进行地图信息搜索,确定匹配的至少一个候选信息;依据当前用户的地图领域特征,对所述至少一个候选信息进行消歧处理,以确定所述当前用户语音的地图信息识别结果。本发明实施例通过对于地图领域信息的专项搜索得到的候选信息进行消歧处理,不仅去除了可能存在的通用领域知识对于地图搜索的干扰,而且避免了歧义以及口音等导致的误判,使得搜索得到的地图信息识别结果更加符合用户习惯和需求,大幅提高了地图语音搜索的语音识别准确率。
- 语音处理方法及装置、以及电子设备-201910583851.6
- 龙海;徐培来;汪俊杰 - 联想(北京)有限公司
- 2019-06-28 - 2019-10-08 - G10L15/08
- 本公开提供了一种语音处理方法,该方法包括:获取语音信息;确定语音信息中是否存在冗余信息;在所述语音信息中存在冗余信息的情况下,移除所述冗余信息,得到待处理信息;以及根据待处理信息,确定针对语音信息的意图信息。本公开还提供了一种语音处理装置、以及一种电子设备。
- 自动语音识别期间的选择性噪声抑制-201510688605.9
- G.塔尔瓦;X.赵;R.D.辛斯三世;M.F.R.乔扈里 - 通用汽车环球科技运作有限责任公司
- 2015-10-22 - 2019-09-03 - G10L15/08
- 本发明提供自动语音识别期间的选择性噪声抑制。描述了一种自动语音识别引擎和使用该引擎的方法。该方法关于前端处理音频信号,并且包括以下步骤:识别音频信号的多个有声帧;确定多个有声帧中的一个或多个具有大于第一预定阈值的信噪比(SNR)数值;以及基于所述确定,对于多个有声帧中的一个或多个回避噪声抑制。
- 一种语音处理方法和装置-201910455168.4
- 张博 - 北京增强智能科技有限公司
- 2019-05-28 - 2019-08-27 - G10L15/08
- 本发明实施例提供一种语音处理方法及装置,所述方法包括:接收语音处理设备发送的请求指令,请求指令携带有用户输入的语音信息;根据请求指令,查询信息库获取包含该语音信息的操作信息;结合历史操作信息和/或用户信息对所述操作信息进行处理,得到目标操作信息;其中,历史操作信息包括在预设时间内所述用户选择的操作信息;用户信息包括:用户年龄、性别、兴趣爱好和/或所在场景;根据所述目标操作信息执行相应的操作。由此,能够基于历史操作信息以及用户信息,对原始语音信息进行处理,得到符合需求的操作信息并执行相应的操作,简化语音操作,且不同用户能够得到不同的目标操作信息,提升用户体验。
- 语音预测的方法和装置-201510031185.7
- 雷欣;李倩 - 上海羽扇智信息科技有限公司
- 2015-01-21 - 2019-08-23 - G10L15/08
- 本发明提供了一种语音预测的方法和装置。该方法包括:接收当前用户的语音查询中已说出的部分;通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型,分别产生第一预测输出和第二预测输出,其中第一预测模型是利用所有用户的历史上的语音查询训练出的,第二预测模型是利用当前用户的历史上的语音查询训练出的;根据第一预测输出和第二预测输出,预测当前用户的语音查询中将要说出的部分。本发明提高了语音查询的效率。
- 一种利用变异鱼群算法优化的SVM进行语音识别的方法-201610481581.4
- 白静;朱文静;薛珮芸;张雪英 - 太原理工大学
- 2016-06-27 - 2019-08-09 - G10L15/08
- 本发明涉及语音识别技术领域。一种利用变异鱼群算法优化的SVM进行语音识别的方法,通过采用自适应的方式对人工鱼的视野visual进行改进,人工鱼群算法在迭代初期,gen值较小,所得视野范围较大,个体鱼可以在整个遍历范围内更新;而在迭代后期,随着gen值的增加,视野范围逐渐减小,个体鱼只在小范围内寻优更新,这样更有利于精确找到全局最优值。变异鱼群算法通过减少参数的使用和简化人工鱼群算法中的行为方式,降低了算法的结构和计算复杂度,有效地避免了在参数寻优过程中陷入局部极值,同时也加快了其收敛速度应用到语音识别系统时,语音识别率更高,收敛速度更快。
- 语音识别系统-201780080657.5
- R.拉奥;K.恩茨明格;A.福斯曼 - 哈曼国际工业有限公司
- 2017-12-29 - 2019-08-09 - G10L15/08
- 一种语音识别系统,其设置有用于显示内容的用户界面、用于提供指示观看所述内容的用户的图像的第一信号的相机和用于提供指示对应于所请求的动作的语音命令的第二信号的传声器。所述语音识别系统还设置有控制器,所述控制器被编程为接收所述第一信号和所述第二信号,基于所述图像过滤所述语音命令,以及基于所述过滤后的语音命令执行所述请求的动作。
- 服务提供装置及储存有服务提供程序的存储介质-201811487142.X
- 铃木功一 - 丰田自动车株式会社
- 2018-12-06 - 2019-07-23 - G10L15/08
- 本发明的服务提供装置包括:接收部,其被构成为,接收由用户所发声的发声内容信息;选定部,其基于发声内容信息而从执行订单受理处理的多个内容装置之中,选定受理来自用户的订单的目标内容装置;查询执行部,其在从目标内容装置接收到不能受理回答的情况下,基于与不能受理回答一起接收到的针对目标内容装置的发声内容信息,从而相对于其他内容装置而依次执行是否能够受理来自用户的订单的查询;切换部,其在接收到能够受理回答的情况下,将发送了能够受理回答的内容装置重新设定为目标内容装置。
- 一种基于音频模板的语音关键词检索方法-201510266553.6
- 徐及;张舸;潘接林;颜永红 - 中国科学院声学研究所;北京中科信利技术有限公司
- 2015-05-22 - 2019-07-09 - G10L15/08
- 本发明涉及一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。
- 一种语音交互方法及装置-201910157416.7
- 陈江;曾敏;张少峰;谢世波 - 深圳市伟文无线通讯技术有限公司
- 2019-03-01 - 2019-06-11 - G10L15/08
- 本发明涉及语音识别技术领域,公开了一种语音交互方法及装置,该方法包括:通过解码器解码音频信号,获得解码结果生成图;从所述解码结果生成图中获取解码结果序列,并获取序列中每个解码结果词的置信度;根据所述置信度对对应的解码结果词进行过滤;对过滤后的解码结果词进行组词,并通过组词结果进行控制;通过置信度阈值过滤等方式降低了命令词误识别的概率,提高了组合命令词的准确率,提升了人机命令词的交互体验。
- 一种语音控制方法、装置、存储介质及语音设备-201910058584.0
- 蒋朵拉;宋德超;贾巨涛;吴伟;张伟伟 - 珠海格力电器股份有限公司
- 2019-01-22 - 2019-05-28 - G10L15/08
- 本发明公开了一种语音控制方法、装置、存储介质及语音设备,该方法包括:获取语音数据;识别所述语音数据中是否包含设定的报警关键词;若所述语音数据中包含所述报警关键词,则确定所述语音数据包含报警指令。本发明的方案,可以解决一些报警服务会对报警人本身所处的环境造成更加危险的影响从而存在安全性差的问题,达到提升报警安全性的效果。
- 语音交互方法及装置、电子设备、可读存储介质-201910141976.3
- 李太和;黄有志;顾家荣;万星星 - 深圳安泰创新科技股份有限公司
- 2019-02-26 - 2019-05-28 - G10L15/08
- 本发明提供一种语音交互方法,所述方法包括以下步骤:对终端界面上的可触发元素进行文本内容设定;其中,所述文本内容包括各类字符;获取包含文本内容的语音指令;对所述语音指令进行语音解析,以得到所述语音指令包含的文本内容;触发所述文本内容对应的元素,并执行对应的控制动作。本发明还提供了一种语音交互装置、电子设备、可读存储介质。本发明解决了现有语音交互技术中交互内容不确定因素多、医疗术语表述复杂且理解难度高、以及在用户发音不标准情况下语音识别准确率不高、识别难度大的技术问题。
- 用于车辆的语音控制装置-201811305996.1
- J·杜西克 - 奥迪股份公司
- 2018-11-05 - 2019-05-14 - G10L15/08
- 本发明涉及一种用于车辆的人机界面系统(Human Machine Interface,HMI),具有用于检测由车辆的驾驶员或其他乘员说出的命令词的麦克风以及具有控制器,该控制器具有用于识别多个确定的命令词的语音识别模块。
- 一种语音识别方法及移动终端-201910032479.X
- 彭武;冯海彬 - 维沃移动通信有限公司
- 2019-01-14 - 2019-05-14 - G10L15/08
- 本发明提供了一种语音识别方法及移动终端,所述方法包括:获取移动终端接收到的语音信息;在确定语音信息中包含预设词的情况下,确定语音信息中是否包含命令信息;其中,预设词用于唤醒移动终端的语音交互功能;在语音信息中包含命令信息的情况下,响应命令信息,能够实现语音交互并不局限于一种形式,使得语音交互形式多样,当用户输入的语音信息包括预设词和命令信息时,无需限定命令信息只能在预设词之后,对命令信息的先后顺序不做限制,使得语音交互的过程更加方便便捷,且提升用户的使用体验。
- 一种基于场景建模的公共场所异常声音检测方法-201610638937.0
- 杨利平;张丽君;辜小花;龚卫国;李伟红;李正浩 - 重庆大学
- 2016-08-05 - 2019-04-23 - G10L15/08
- 本发明是一种基于场景建模的公共场所异常声音检测方法,该方法根据公共场所场景声音相对异常声音平均幅值小,波动范围较窄的统计特性,首先计算各场景声音信号的平均幅值,并基于期望最大化算法建立不同场景的高斯混合模型;然后求取待测声音信号与场景模型的似然度,进行似然度匹配,再基于多数投票原则和最小连续帧数的阈值条件判定待测声音帧是否为异常声音,从而实现异常声音的检测。本发明相对现有的异常声音检测方法,场景适应性更强,检测的错误率更低,同时检测的实时性和效率也较高。
- 一种音频信息处理方法及终端-201610157251.X
- 赵伟峰 - 腾讯科技(深圳)有限公司
- 2016-03-18 - 2019-04-16 - G10L15/08
- 本发明公开了一种音频信息处理方法及终端,包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
- 用于改进的关键词检测的技术-201780051396.4
- P·曼加拉斯;J·G·鲍尔;G·斯特摩尔 - 英特尔公司
- 2017-08-17 - 2019-04-16 - G10L15/08
- 用于改进的关键词检测的技术被公开。一种计算设备可以捕获来自该计算设备的用户的语音数据,并且对所捕获的语音数据执行自动语音识别。自动语音识别算法被配置为既可以检测关键词,也可以提供对所捕获的语音数据的完整转录。与相似的词相比,自动语音识别算法可以优先匹配关键词。所识别的关键词可用于改进转录的语音数据的解析或用于改进辅助代理以与计算设备的用户保持对话。
- 编辑语音内容的方法及存储装置-201811286068.5
- 李福文;朱庆春;朱佳齐 - 深圳大普微电子科技有限公司
- 2018-10-31 - 2019-03-29 - G10L15/08
- 本发明提供一种编辑语音内容的方法,包括步骤:处理器将编辑指令解码并发送至语音搜索处理模块;语音搜索处理模块接收编辑指令并提取存储介质中的待编辑音频数据进行语音识别搜索,判断待编辑音频数据中是否存在敏感词语音;若待编辑音频数据中存在敏感词语音,则语音搜索处理模块根据编辑指令对待编辑音频数据中的敏感词语音进行编辑,并暂存于内存中。本发明还提供一种编辑语音内容的存储装置,包括存储控制器及存储介质;所述存储介质用于储存音频数据;所述存储控制器包括处理器、语音搜索处理模块及内存。本发明通过设置语音搜索处理模块对音频数据进行搜索和编辑处理,以提高大数据处理效率,可节省大量处理器资源。
- 一种基于语言模型的应用协议识别方法及系统-201510653901.5
- 张永铮;王一鹏;云晓春 - 中国科学院信息工程研究所
- 2015-10-10 - 2019-03-22 - G10L15/08
- 本发明涉及一种基于语言模型的应用协议识别方法及系统。该方法包括离线阶段和在线阶段;离线阶段包括:将混杂的原始网络数据报文划分为目标应用协议的数据报文集合和非目标应用协议的数据报文集合;构建目标应用协议的语言模型;提取已经标记类别的网络数据报文的协议关键字,作为网络数据报文的分类特征;对离线数据进行学习训练,获得目标应用协议的检测模型;在线阶段包括:根据离线阶段得到的语言模型提取待测网络数据报文的协议关键字作为其分类特征;对待测网络数据报文的协议类别属性进行判别,并输出判别结果。本发明能够充分挖掘网络消息报文中潜在的协议语义信息,在在线网络协议流量分类过程中具有高准确率和强鲁棒性。
- 一种语音控制方法、相关装置及存储介质-201811381971.X
- 谭亚明;潘洪 - 新视家科技(北京)有限公司
- 2018-11-20 - 2019-03-19 - G10L15/08
- 本发明实施例涉及通信技术领域,公开了一种语音控制方法、相关装置及存储介质。本发明中,确定语音指令的类型;根据语音指令的类型确定控制指令,其中,控制指令包括第一类型控制指令或第二类型控制指令;判断控制指令是否为第一类型控制指令,若是,则将控制指令发送给服务器,并接收服务器根据第一类控制指令返回的K歌信息,否则,直接将控制指令发送给第二终端,其中,第二终端根据控制指令进行状态的调整。使得实现对K歌过程或第二终端设备的控制。
- 一种语音识别的评测方法及装置-201811512181.0
- 刘帆;张健;姜琳 - 北京搜狗科技发展有限公司
- 2018-12-11 - 2019-03-19 - G10L15/08
- 本申请实施例公开了一种语音识别的评测方法及装置,首先由代理服务器触发具有语音识别功能的第一客户端启动语音识别模块,当代理服务器触发第二客户端从语料库中获取至少一条目标测试语料,并播放目标测试语料时,由语音识别模块对目标测试语料进行语音识别。代理服务器获取语音识别模块识别得到的语音识别文本,并将该语音识别文本与目标测试语料的标准文本进行比较,以确定第一客户端的语音识别评测结果,从而实现自动对第一客户端的语音识别效果评测,避免人工评测的主观性,提高评测效率。
- 一种语音识别方法及系统-201811354533.4
- 吴荣茂;王可佳 - 深圳航天科创智能科技有限公司
- 2018-11-14 - 2019-02-15 - G10L15/08
- 本发明涉及一种语音识别方法及系统,方法包括:获取待识别的语音信号;提取所述待识别的语音信号中的语音特征参数;根据所述语音特征参数对所述语音信号进行分类;将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。本发明提供的技术方案通过先对语音信号进行特征参数提取,根据提取的参数对语音信号进行分类,将语音信号输入到与语音特征参数相对应的模型中进行识别,避免了直接对语音信号识别时无法识别的问题,提高语音识别的效率和准确率。
- 语音类别的识别方法、装置、计算机设备和存储介质-201810956681.7
- 易苗;莫洋 - 中国平安人寿保险股份有限公司
- 2018-08-21 - 2019-01-25 - G10L15/08
- 本申请涉及语音识别领域,提供了一种语音类别的识别方法、装置、计算机设备和存储介质,包括:获取待识别的第一语音信息,并将所述第一语音信息转换为第一语谱图;将所述第一语谱图输入至预设的语音分类模型中,以得到所述第一语谱图的分类结果,并将所述分类结果作为所述第一语音信息的类别;其中,所述语音分类模型是利用已知情感类别或者性格类别的语图谱,基于深度卷积神经网络训练得到;本申请中提供的语音类别的识别方法、装置、计算机设备和存储介质,便于提升语音信息中情感、性格分类的效果。
- 哼唱检索方法及系统-201410149146.2
- 吴奎;蒋成林;刘丹;魏思;胡国平;胡郁;刘庆峰 - 科大讯飞股份有限公司
- 2014-04-14 - 2019-01-18 - G10L15/08
- 本发明涉及音乐检索技术领域,公开了一种哼唱检索方法及系统,该方法包括:获取用户哼唱歌曲片段;提取所述哼唱歌曲片段的旋律特征及频谱特征;根据所述旋律特征从所述歌曲库中选择候选歌曲;将所述频谱特征与所述候选歌曲的频谱特征进行匹配,得到频谱相似度;根据所述频谱相似度、或者根据所述频谱相似度及所述旋律相似度,对所述候选歌曲进行排序。本发明可以有效提高检索结果的准确率。
- 通信终端双麦克风消噪系统中的语音活动检测方法及装置-201510830444.2
- 章雒霏;张铭;李晨 - 南京师范大学
- 2015-11-25 - 2019-01-18 - G10L15/08
- 本发明公开了通信终端双麦克风消噪系统中的语音活动检测方法和装置,一为神经网络的训练:选取训练样本提取特征并得到对应的语音活动检测结果,利用特征和对应的检测结果对神经网络进行训练;二为基于训练好的神经网络进行语音活动检测:分别使用通信终端的主、次麦克风采集待测带噪语音信号,对采集到的带噪语音信号提取特征,然后将特征送入训练好的神经网络,由神经网络输出语音活动检测的结果;其中特征包括子带互通道能量差和归一化的互通道相关。可依据不同的噪声环境自适应的调节参数进行语音活动检测,解决了现有的语音活动检测方法不能适应噪声环境改变而性能下降的问题,提升了复杂噪声环境下的语音活动检测的准确性。
- 编码器选择-201680016893.6
- 芬卡特拉曼·S·阿提;文卡塔·萨伯拉曼亚姆·强卓·赛克哈尔·奇比亚姆;维韦克·拉金德朗;苏巴辛格哈·夏敏达·苏巴辛格哈 - 高通股份有限公司
- 2016-03-30 - 2019-01-15 - G10L15/08
- 一种装置包含第一分类器及耦合到所述第一分类器的第二分类器。所述第一分类器经配置以输出指示音频帧分类为语音帧或非语音帧的分类的第一决策数据,所述第一决策数据是基于与所述音频帧为所述语音帧的第一似然性相关联的第一概率数据且基于与所述音频帧为所述非语音帧的第二似然性相关联的第二概率数据而确定。所述第二分类器经配置以基于所述第一概率数据、所述第二概率数据及所述第一决策数据而输出第二决策数据,所述第二决策数据包含对可用于编码所述音频帧的多个编码器中的特定编码器的选择的指示。
- 专利分类