“语音音频数据”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果2708588个，建议您升级VIP下载更多相关专利

[发明专利]神经网络的训练和语音端点检测方法及装置-CN201911391398.5有效
发明人：胡雪成 -专利权人：思必驰科技股份有限公司
申请日： 2019-12-30 - 公布日： 2022-07-05 - 主分类号： G10L15/04 文献下载
摘要：本发明公开神经网络的训练和语音端点检测方法及装置，其中，一种神经网络的训练和语音端点检测方法，包括将语音音频数据和非语音音频数据随机混合形成混合音频数据；提取混合音频数据的声学特征；以及将声学特征输入FSMN模型中，训练FSMN模型使得FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于混合音频数据中语音音频数据和非语音音频数据的分类本申请实施例的方案混合非语音音频数据和语音音频数据，之后用于前馈序列记忆神经网络的输入对该神经网络进行训练，使得该神经网络能够输出各音频数据单元属于语音音频数据还是非语音音频数据的分类，之后可以用于语音端点检测，使得语音端点检测的结果更加精准。
神经网络训练语音端点检测方法装置

[发明专利]音频的处理方法、装置、设备、介质及计算机程序产品-CN202210007064.9在审
发明人：高毅;杨清山;罗程;李斌;张思宇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-01-05 - 公布日： 2022-04-12 - 主分类号： H04L65/60 文献下载
摘要：本申请公开了一种音频的处理方法、装置、设备、介质及计算机程序产品，涉及音频处理领域。该方法包括：获取音频数据对应的音频特征，音频数据为待进行语音传输的音频，音频特征用于指示音频数据的能量分布情况；基于音频特征对音频数据进行噪声抑制处理，得到降噪音频数据；基于音频特征对应的能量分布情况确定语音检测数据，语音检测数据用于指示音频数据中语音信号的存在情况；根据语音检测数据对降噪音频数据进行音量缩放处理，得到目标音频数据，目标音频数据为用于进行语音传输的音频。根据音频特征对应的能量分布确定该音频数据中是否包含语音信号后，对降噪后的音频数据进行音量调整，提升了音频数据在音量调整过程中的增益效果。
音频处理方法装置设备介质计算机程序产品

[发明专利]音频数据的处理方法及装置、模型训练方法及装置-CN201910533494.2在审
发明人：吴本谷;宋莎莎 -专利权人：北京猎户星空科技有限公司
申请日： 2019-06-19 - 公布日： 2020-12-22 - 主分类号： G10L25/84 文献下载
摘要：本申请公开一种音频数据的处理方法及装置、模型训练方法及装置，属于语音处理技术领域，该方法包括：获取音频数据，将音频数据输入到判别模型中，以判别音频数据是否为有效数据，若根据判别模型的输出结果确定音频数据为有效数据，则将音频数据输入到语音识别系统中进行语音识别，这样，先利用判别模型对获取到的音频数据的有效性进行判别，根据判别结果确定音频数据有效时再对音频数据进行语音识别，仅选择有效的音频数据进行语音识别，而不再是不加选择地对获取到的所有音频数据均进行语音识别，可有效降低吵杂环境中语音识别系统误识别无效音频数据的概率、提高用户体验，不对无效音频数据进行语音识别还可节省语音识别系统的软/硬件资源。
音频数据处理方法装置模型训练

[发明专利]通过无线电广播的持续性训练和发音改进-CN201811073250.2在审
发明人： G·塔瓦尔;K·R·布克;X·F·赵 -专利权人：通用汽车环球科技运作有限责任公司
申请日： 2018-09-14 - 公布日： 2019-03-26 - 主分类号： G10L15/22 文献下载
摘要：处理器在车辆中接收广播，从广播中选择音频数据，处理从广播中选择的音频数据，基于处理确定选择的音频数据的语音模式，从广播中选择和选择的音频数据相似的音频数据的附加实例，处理来自广播的音频数据的附加实例，确定音频数据的附加实例的语音模式，以及从选择的音频数据的语音模式和音频数据的附加实例的语音模式中选择多个语音模式。发射机将多个语音模式传送至服务器，以基于对多个语音模式的统计分析确定选择的音频数据的最优发音并将选择的音频数据的最优发音添加到用来在车辆中识别语音的数据库。
音频数据语音模式发音广播无线电广播发射机接收广播统计分析持续性处理器服务器数据库传送语音改进

[发明专利]语音识别方法、语音识别装置与语音识别系统-CN202211131469.X在审
发明人：冯晓闯;陈明;李志杰;田斌;李健;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2022-09-16 - 公布日： 2022-12-23 - 主分类号： G10L15/26 文献下载
摘要：本申请提供了一种语音识别方法、语音识别装置与语音识别系统。该语音识别方法包括：接收发送端发送的单通道音频数据，其中，单通道音频数据为多个角色音频数据封装得到的单通道的音频数据，角色音频数据为具有角色标记的多通道音频数据，多通道音频数据为发送端采集的音频数据；对单通道音频数据进行语音识别处理，得到各角色的语音识别文本信息。该语音识别方法中，由于发送端发送给接收端的是单通道音频数据，这样保证了音频数据在传输的过程中占用的带宽资源较少。由于接收端无需进行角色识别等等，只需对单通道音频数据进行语音识别，这样还保证了接收端的计算量较少。
语音识别方法装置系统

[发明专利]一种玩具的基于语音识别的自学习方法和自学习装置-CN201610142668.9有效
发明人：孙涛 -专利权人：深圳市艾塔文化科技有限公司
申请日： 2016-03-14 - 公布日： 2018-08-31 - 主分类号： A63H33/00 文献下载
摘要：本发明公开了一种玩具的基于语音识别的自学习方法和自学习装置。该自学习方法，包括：输出语音采集提示，开启语音采集设备；所述语音采集设备采集第一音频数据，提取所述第一音频数据的特征数据；所述语音采集设备采集与所述第一音频数据匹配的第二音频数据；将所述第一音频数据和第二音频数据关联保存通过在输出提示后所述语音采集设备采集第一音频数据并提取音频数据的特征数据，在采集与第一音频数据匹配的第二音频数据后将第二音频数据和第一音频数据关联保存，实现了玩具自身对语音的学习，避免了预存语音对玩具的语种的限制，避免了玩具制作过程中针对不同语种区域预存不同音频数据。
一种玩具基于语音识别自学习方法装置

[发明专利]提醒音频的生成方法、装置、电子设备和存储介质-CN202110653252.4在审
发明人：刘晶;刘建立 -专利权人：阿波罗智联（北京）科技有限公司
申请日： 2021-06-11 - 公布日： 2021-09-28 - 主分类号： G06F3/16 文献下载
摘要：本公开提供了提醒音频的生成方法、装置、电子设备和存储介质，涉及人工智能技术领域，具体为深度学习、云平台技术领域。具体实现方案为：获取音频数据，检测到音频数据为语音数据，则缓存音频数据，以及检测到音频数据为非语音数据，则停止缓存音频数据，并在已缓存的音频数据的内容为提醒内容时，将已缓存的音频数据确定为提醒音频，并将提醒音频存储至磁盘中通过对音频数据的检测，获取其中为语音数据的音频数据，并缓存，并在已缓存的音频数据为包含提醒内容的音频数据时，将其确定为提醒音频，存储至磁盘，从而将获取的音频数据中的非语音数据和语音数据中的非提醒音频去除，实现提醒音频的准确录制。
提醒音频生成方法装置电子设备存储介质

[发明专利]一种语音频数据的存储方法和装置-CN201010165733.2无效
发明人：孙健;李加周;阮亚平;林亚 -专利权人：中兴通讯股份有限公司
申请日： 2010-04-14 - 公布日： 2011-10-19 - 主分类号： G06F17/30 文献下载
摘要：本发明公开一种语音频数据的存储方法和装置，所述方法包括：在多用途语音频数据存储文件中记录所述多用途语音频数据存储文件的基本信息；将多用途语音频编解码器(VAC)帧数据顺序存储到所述多用途语音频数据存储文件中；在所述多用途语音频数据存储文件中记录所述多用途语音频数据存储文件的负载信息；在所述多用途语音频数据存储文件中记录其存储的VAC帧的索引信息。本发明能够实现多用途语音频数据方便的回放功能，并且可以高效获取文件信息，实现定位播放和分级播放。
一种语音频数存储方法装置

[发明专利]语音数据的处理方法、装置及电子设备-CN202110330333.0有效
发明人：冀利刚;何建邦;朱磊;邓志伟 -专利权人：智道网联科技（北京）有限公司
申请日： 2021-03-29 - 公布日： 2021-07-09 - 主分类号： G11B20/10 文献下载
摘要：本申请是关于一种语音数据的处理方法、装置及电子设备。该方法包括：分别采集环境音频数据和本地播放音频数据；其中，环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据，待消除音频数据与本地播放音频数据具有相同的音频数据；将本地播放音频数据进行缓存；当本地播放音频数据的缓存容量达到预设存储容量时，同步处理环境音频数据和本地播放音频数据，以消除环境音频数据中的待消除音频数据，并识别环境音频数据中的待识别语音数据。本申请提供的方案，可以提高识别环境音频数据中的待识别语音数据的准确率，本申请的处理方法简单易行，处理效率高。
语音数据处理方法装置电子设备

[发明专利]一种声源定位方法、装置、设备及存储介质-CN202310066371.9在审
发明人：刘威亚;刘贝易 -专利权人：思必驰科技股份有限公司
申请日： 2023-01-17 - 公布日： 2023-04-28 - 主分类号： G01S5/18 文献下载
摘要：本发明提供一种声源定位方法、装置、设备及存储介质，所述方法包括：对接收到的原始音频数据进行语音分离，获得多路分离音频数据；计算所述多路分离音频数据中每一路分离音频数据的语音存在概率；根据所述每一路分离音频数据的语音存在概率，确定出目标分离音频数据；将所述目标音频分离数据对应的语音存在概率与所述原始音频数据相乘，获得待定位音频数据；对所述待定位音频数据进行声源定位，确定出所述原始音频数据中的人声方位。本发明实现了声源定位过程中直接、准确、快速定位出人声所在方位，为后续语音交互奠定了准确的数据基础，进而提升了语音交互的效果。
一种声源定位方法装置设备存储介质

[发明专利]自动增益控制装置及方法-CN201410438031.5有效
发明人：王海业 -专利权人：无锡中感微电子股份有限公司
申请日： 2014-08-29 - 公布日： 2017-07-18 - 主分类号： G10L21/02 文献下载
摘要：本发明提供一种自动增益控制装置及方法，所述方法包括采集模拟的音频信号；将采集的模拟的音频信号进行模数转换形成数字的音频数据；将所述数字的音频数据进行编码得到连续的多帧音频数据；对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；根据各帧音频数据的类型确定其对应的增益，非语音数据帧和背景语音数据帧的增益小于等于0dB，目标语音数据帧的增益大于0dB；根据自动增益控制模块确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。这样可以增强目标语音，抑制背景语音，提高了用户的体验。
自动增益控制装置方法

[发明专利]一种语音识别方法及装置-CN202011624401.6在审
发明人：陈孝良;冯大航;许孝先;常乐 -专利权人：北京声智科技有限公司
申请日： 2020-12-31 - 公布日： 2021-04-02 - 主分类号： G10L21/043 文献下载
摘要：本发明适用于语音识别技术领域，提供了一种语音识别方法及装置，该方法包括：对获取的第一音频数据进行语速识别，获取所述第一音频数据的初始语速；基于基准语速和所述初始语速，对所述第一音频数据进行语音变速处理，获得调整后的第二音频数据，所述第二音频数据的语速与所述基准语速一致；对所述第二音频数据进行语音识别，获取语音识别结果。本发明通过对音频数据的语速进行调整后再进行语音识别，由于音频数据的语速与基准语速一致，因此可以极大减少语音识别模型的训练数据，从而节省音频数据资源和训练时间成本。
一种语音识别方法装置

[发明专利]一种单声道通话录音的智能分轨方法、装置和系统-CN202110915823.7在审
发明人：孔醍;郑渊中;朱小波;钟雨崎;叶峰 -专利权人：上海淇玥信息技术有限公司
申请日： 2021-08-10 - 公布日： 2021-11-23 - 主分类号： G10L15/26 文献下载
摘要：本发明公开了一种单声道通话录音的智能分轨方法、装置和系统，用于对单声道通话录音中多人语音进行分离，其中方法包括对通话录音的音频数据进行预备处理，得到预备处理后的音频数据；对预备处理后的音频数据进行帧属性检测，判断所述音频数据中每一帧的帧属性信息；根据所述音频数据中每一帧的帧属性信息确定所述音频数据中的语音起始点，删除语音起始点之前的音频数据得到纯语音音频数据；将所述纯语音音频数据输入分轨模型，得到所述纯语音音频数据的分轨信息采用该技术方案先进行语音起始点检测，剔除干扰仅保留纯语音部分，然后分离出实际的各说话人角色，以供后续ASR正确识别。
一种单声道通话录音智能方法装置系统

[发明专利]语音端点检测方法、装置、计算机设备及可读存储介质-CN202211353454.8有效
发明人：陈运兵 -专利权人：北京探境科技有限公司
申请日： 2022-11-01 - 公布日： 2023-03-03 - 主分类号： G10L15/04 文献下载
摘要：本申请提出了一种语音端点检测方法、装置、计算机设备及可读存储介质，该方法包括：采集音频数据，并对音频数据进行音频预处理，得到目标音频数据；将目标音频数据输入至预先构建的音频场景分类模型，确定目标音频数据对应的场景类别；将目标音频数据输入至预先构建的语音端点检测模型，并基于场景类别确定目标音频数据对应的语音状态。本申请通过结合音频场景分类模型和语音端点检测模型对音频数据进行语音端点检测，实现自动切换阈值来适应不同场景下的语音端点检测的效果，有效提高语音端点检测的准确性和效率。
语音端点检测方法装置计算机设备可读存储介质

[发明专利]音频数据处理方法、装置及电子设备-CN202210382916.2在审
发明人：张琮 -专利权人：维沃移动通信有限公司
申请日： 2022-04-12 - 公布日： 2022-07-12 - 主分类号： G10L25/60 文献下载
摘要：本申请公开了一种音频数据处理方法、装置及电子设备，属于通信技术领域。其中，该方法包括：获取至少两个音频数据；其中，所述音频数据通过不同的麦克风采集得到；获取每个音频数据中的每个语音分段的语音质量；根据所述语音质量，确定目标音频数据；其中，所述目标音频数据为所述至少两个音频数据中的一个，或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
音频数据处理方法装置电子设备

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 100000 条