[发明专利]音频数据处理方法及装置有效

专利信息
申请号: 201910613911.4 申请日: 2019-07-09
公开(公告)号: CN110335623B 公开(公告)日: 2022-02-22
发明(设计)人: 郑校;姚炜;程剑涛;杜黎明;孙洪军;乔永庆 申请(专利权)人: 上海艾为电子技术股份有限公司
主分类号: G10L25/18 分类号: G10L25/18;G10L21/0208;G10L21/0332
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 李伟
地址: 201199 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种音频数据处理方法,包括:获取待检测音频数据;按预设的分帧方式将所述待检测音频数据划分为多个音频帧;生成每个所述音频帧的频谱,并获取每个所述频谱中波形的频率分布及波形的幅值变化量;对于每一个所述频谱,依据所述频谱中波形的频率分布及波形的幅值变化量,判断所述频谱是否满足预先设置的失真音频条件;若所述频谱满足所述失真音频条件,则调用预先设置的失真音频处理算法,对所述频谱中的预设频段的波形进行线性调整。通过检测音频数据的各个音频帧对应的频谱是否满足预先设置的失真音频条件,调用预先设置的算法对满足失真音频条件的频谱中的波形进行调整,可以线性的改善和去除扬声器的杂音,提高用户的体验。
搜索关键词: 音频 数据处理 方法 装置
【主权项】:
1.一种音频数据处理方法,其特征在于,包括:获取待检测音频数据;按预设的分帧方式将所述待检测音频数据划分为多个音频帧;生成每个所述音频帧的频谱,并获取每个所述频谱中波形的频率分布及波形的幅值变化量;对于每一个所述频谱,依据所述频谱中波形的频率分布及波形的幅值变化量,判断所述频谱是否满足预先设置的失真音频条件;若所述频谱满足所述失真音频条件,则调用预先设置的失真音频处理算法,对所述频谱中的预设频段的波形进行线性调整。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海艾为电子技术股份有限公司,未经上海艾为电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910613911.4/,转载请声明来源钻瓜专利网。

同类专利
  • 一种掘进噪声源面波频散曲线提取方法及系统-202310687576.9
  • 刘斌;任玉晓;王清扬;陈磊;郝磊 - 山东大学
  • 2023-06-09 - 2023-10-24 - G10L25/18
  • 本发明公开一种掘进噪声源面波频散曲线提取方法及系统,包括:获取探测区域内测点对应的掘进噪声源面波数据,并去除干扰信号后,得到纯净面波信号;构建频散曲线分模式提取网络,并以不同排列长度的面波模拟数据进行分阶段训练;采用训练后的频散曲线分模式提取网络对纯净面波信号提取多模态面波频散曲线;其中,对纯净面波信号进行模态分离,并对分离后各模态的域特征图经谱转换后,得到各模态的频散曲线。压制噪声干扰,实现对有效面波信号的高质量获取,实现多模态频散能量的自适应分离,削弱各模态频散特征间的影响,提升对短排列数据频散曲线的提取能力,从而实现完整频散曲线的预测。
  • 一种无参考民航管制语音质量智能评价方法-202311186111.1
  • 吴岳洲;李贵民;崔枝腾;傅强 - 中国民用航空飞行学院
  • 2023-09-14 - 2023-10-20 - G10L25/18
  • 本发明涉及语音质量评估技术领域,公开了一种无参考民航管制语音质量智能评价方法,先整理收集干净原始‑待测评语音数据,并对待测评管制语音数据进行MOS标注,用于后续神经网络模型训练;然后通过梅尔滤波器提取管制语音频谱特征,采用滑动窗口技术将梅尔频谱划分为若干个相互重叠的子段;通过自适应卷积神经网络对梅尔频谱子段提取浅层特征;采用残差神经网络和双向长短时记忆网络的并行网络框架,对语音特征进行时空域特征提取;最后通过自注意力全连接层将语音特征映射到MOS值。本发明解决了评价结果容易受评价者主观意识和专业能力影响、评价结果重复性较差等问题,提高了民航管制语音质量评价的智能化和准确性。
  • 工业设备运行状态的识别方法、装置、设备及存储介质-202311132923.8
  • 瞿千上;梁磊;庄焰;谭熠 - 硕橙(厦门)科技有限公司
  • 2023-09-05 - 2023-10-10 - G10L25/18
  • 本发明提供了一种工业设备运行状态的识别方法、装置、设备及存储介质,可以先通过获取由声音采集器采集到的工业设备运行音频,并对所述工业设备运行音频进行逐秒分割,以生成多段音频信号,接着,基于梅尔频谱分析法将多段所述音频信号转换为多段二维频谱图,计算每一段所述二维频谱图与样本集的每一样本之间的特征度量;最后,根据所述特征度量建立距离矩阵,调用KNN算法对所述距离矩阵进行运算,以生成每一段二维频谱图的运行状态分类结果。其无需训练、参数和GPU资源,即可实现良好的效果,为进一步的自动化运行监测提供了有力支持。
  • 电抗器声信号提取方法、系统及计算机设备-202310924915.0
  • 邵宇鹰;彭鹏;周华;王枭;吕政权;何诚硕;高健 - 国网上海市电力公司
  • 2023-07-26 - 2023-10-03 - G10L25/18
  • 本发明公开了一种电抗器声信号提取方法、系统及计算机设备,方法包括:采集电抗器声信号;基于电抗器参数与监测装置,对所述电抗器声信号的特性进行分析;对所述电抗器声信号进行预处理,得到预处理后的电抗器声信号;依据所述电抗器声信号的特性,将预处理后的电抗器声信号中不符合电抗器特征的声信号予以剔除,得到纯净的电抗器声信号。本发明对电抗器声信号中混杂的噪声信号进行的剔除操作极大地提升了电抗器声信号的精度,为研究电抗器运行状态,噪声抑制等研究提供了可靠的数据支撑与基础。
  • 一种音频流精确分发的方法、设备及介质-202310522227.1
  • 章发金;朱正辉;赵定金;明德;林弟 - 广东保伦电子股份有限公司
  • 2023-05-09 - 2023-09-29 - G10L25/18
  • 本发明涉及音频流转发领域,具体公开了一种音频流精确分发的方法、设备及介质,包括业务服务器实时获取播放指令;依据音频内容获得音频数据,将音频数据转换成音频流,生成音频流标签,并将音频流标签附加在音频流的每一个片段之前;逻辑服务器依据播放指令,建立音频流标签与名称列表中的若干个功放喇叭之间的映射关系;逻辑服务器检测映射关系对应的若干个功放喇叭是否正常工作;如否,反馈功放喇叭的错误信息,结束音频流播放;如是,根据映射关系以及音频流标签,发送音频流至若干个功放喇叭;若干个功放喇叭播放接收到的音频流。本发明通过自动生成音频流标签并建立映射,实现了一种操作便捷、数字软件辅助、高利用率的数字音频流精确分发。
  • 一种深度学习模型蒸馏方法、装置、设备及介质-202311071923.1
  • 梁磊;瞿千上;庄焰;谭熠 - 硕橙(厦门)科技有限公司
  • 2023-08-24 - 2023-09-29 - G10L25/18
  • 本发明提供了一种深度学习模型蒸馏方法、装置、设备及介质,包括以下步骤:将一维轧机音频信号通过梅尔频谱分析转化为二维频谱图;分别基于ViT‑H及ViT‑tiny构建万物可分割模型模型,作为模型蒸馏中的教师和学生模型;固定两模型提示编码器及解码器的参数,基于嵌入的KL散度训练两模型的频谱图像编码器;在时间轴逐秒生成提示点,基于ViT‑tiny的编码器参数实现分割,通过mIoU过滤无效分割,生成最终的整图分割结果。本发明通过将大模型到小模型的蒸馏,实现了基于音频轧机空载负载识别,能够有效提高深度学习轧机空载负载音频识别的性能。
  • 基于时频精细化分析的人声风格识别方法-202310583579.8
  • 韦岗;何铮;曹燕;王一歌 - 华南理工大学
  • 2023-05-23 - 2023-09-22 - G10L25/18
  • 本发明公开了一种基于时频精细化分析的人声风格识别方法,过程如下:基频估计和谐波标记步骤,首先对人声信号取短时元音部分进行基频估计,基频估计采用时域自相关和窄带谱能量相结合的频率估计算法,然后根据估计出来的基频对频谱进行自适应谐波标记,做到准确标出频谱的所有谐波;时频精细化分析步骤,分别从时域和频域对人声信号进行精细化分析和特征提取,重点关注周期变化和谐波结构;支持向量机识别模型训练和识别步骤,用提取的特征和相应的人声风格标签进行支持向量机模型的训练,模型训练完毕后则可用于人声风格的识别,把人声信号提取出的特征向量作为输入即可得到风格。
  • 基于缝合快速神经网络的声音事件定位和检测方法-202310805306.3
  • 郭敏;道彤阳;裴炤;马苗 - 陕西师范大学
  • 2023-07-03 - 2023-09-22 - G10L25/18
  • 一种基于缝合快速神经网络的声音事件定位和检测方法,包括:从STARSS22数据集和synth‑set数据集中提取声音信号;提取声音信号的对数梅尔频谱特征和声强矢量特征;构建缝合快速神经网络;训练缝合快速神经网络;测试缝合快速神经网络定位和检测声音事件。本发明的缝合快速神经网络,解决传统深度神经网络特征提取不足和训练速度慢的局限性,在缩短网络训练时间的同时提高对有效数据信息的特征提取能力,具有网络训练速度快、特征信息提取完整和定位与检测准确率高的优点。
  • 音频信号的处理方法及系统、音频处理芯片、蓝牙设备-202010277771.0
  • 方桂萍;肖全之 - 珠海市杰理科技股份有限公司
  • 2020-04-08 - 2023-09-22 - G10L25/18
  • 本发明涉及一种音频信号的处理方法及处理系统、音频处理芯片、蓝牙设备、计算机可读介质,处理方法包括步骤:将获取的音频信号帧转换成频域信号,并求能量谱,得到音频能量谱;然后判断音频信号帧是否包含丢包数据,对于未丢包的,将音频能量谱作傅里叶变换,得到第二信号;计算第二信号中低频分量的占比;并根据占比与预估可能性估算音频信号帧中包含有人声的实际可能性;再将实际可能性作为预估可能性,并判断实际可能性是否大于人声可能性阈值;若是,则音频信号帧包含有人声;若否,则音频信号帧不包含有人声;对于丢包的则进行修复。本发明能够提高人声识别时对复杂环境的抵抗力,降低人声识别方法失效的概率和提高音频信号输出的实时性。
  • 一种广播系统静音检测方法、音频输出设备及存储介质-202310736510.4
  • 李显文;黄化吉;杨子腾;杨雪松 - 伟乐视讯科技股份有限公司
  • 2023-06-20 - 2023-09-19 - G10L25/18
  • 本发明实施例涉及应急广播的技术领域,具体涉及一种广播系统静音检测方法、音频输出设备及存储介质。所述方法包括:获取广播信息;根据广播信息的输入类型,对广播信息进行解码或转换,得到PCM音频数据;在时域对PCM音频数据进行平均功率的计算及比对,得到PCM音频数据的时域检测结果;通过傅立叶变换将PCM音频数据从时域转换至频域,得到频域音频数据;对频域音频数据进行功率平均值的标准差数据的计算及比对,得到PCM音频数据的频域检测结果;根据PCM音频数据的时域检测结果和频域检测结果,判断该广播信息是否为静音模式下的噪音。该方法解决了单一种检测方式精度和灵敏度的不足的问题,极大提高检测概率,缩短检测时间,提高用户的使用体验。
  • 一种模切机音频感兴趣区域定位方法、装置、设备及介质-202311049245.9
  • 梁磊;瞿千上;庄焰;谭熠;朴永焕 - 硕橙(厦门)科技有限公司
  • 2023-08-21 - 2023-09-15 - G10L25/18
  • 本申请提供一种模切机音频感兴趣区域定位方法、装置、设备及存储介质,方法包括:获取模切机的切割音频;根据高幅值窗口占总窗口的比例确定音频分割间隔S;对切割音频进行分割,得到多段子切割音频;基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;基于预先训练的ViT深度学习模型进行模切机切割动作预识别,时间扩展后进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;然后进行基于阈值分割的感兴趣区域定位。本申请采用基于ViT的深度学习识别与阈值分割相结合的ROI提取方法,增加预识别步骤以提高方法对噪声及环境声的鲁棒性,能够适应不同工作频率的模切机设备,提高了模切机切割音频ROI提取的准确性和效率。
  • 一种搭载在巡视机器人上的异常声音检测方法-202310625191.X
  • 王战;林清;何星慰;徐洁;李炳辰;王进;曹师好 - 浙江浙能数字科技有限公司;浙江大学
  • 2023-05-29 - 2023-09-15 - G10L25/18
  • 本发明公开了一种搭载在巡视机器人上的异常声音检测方法,包括1、声音收集;2、获取声音时间序列和采样频率、每个采样点的样本位数的属性,先对PCM进行补零使其长度为2的整数次幂L,并对PCM进行归一化;3、计算声音的能量;4、进行短时傅里叶变换;5、计算梅尔频谱图MelSpec,通过梅尔滤波器进行加权,最后将对加权的滤波器输出值进行对数运算得到MelSpec;6、得到一个多特征融合的声音特征向量X;7、构建数据集,将拼接得到的特征向量X输入到自编码器中进行训练,根据重建误差与阈值的关系来判断是否为异常声音。本发明可以有效避免现有技术需要异常声音样本、特征单一导致识别率低等问题。
  • 语音信号的处理方法及系统、音频处理芯片、电子设备-202010271015.7
  • 方桂萍;肖全之 - 珠海市杰理科技股份有限公司
  • 2020-04-08 - 2023-09-08 - G10L25/18
  • 本发明涉及一种包含丢包数据的语音信号的处理方法及系统、语音处理芯片、计算机可读介质、电子设备。处理方法包括:首先获取包含丢包数据的语音信号以及所述语音信号对应的丢包判断信号,其中,所述丢包判断信号包括语音信号中各音频数据包是否为丢包数据的信息;然后将所述语音信号转换为频域信号,记为第一信号,使用所述丢包判断信号生成调制信号;并使用所述调制信号对所述第一信号进行调制处理,得到预输出信号;接着对所述修正信号作傅里叶反变换,得到预输出信号。本发明的处理方法能够尽可能避免语音信号的重发以及降低传送带宽的负担,且能够提高语音信号的实时性。
  • 基于语音时频精细分析的说话人个体属性自动识别方法-202310583584.9
  • 曹燕;况倩莹;王一歌;韦岗 - 华南理工大学
  • 2023-05-23 - 2023-09-05 - G10L25/18
  • 本发明公开了一种基于语音时频精细分析的说话人个体属性自动识别方法,通过精细分析语音的时域和频域特征并结合构建的基于残差自注意力多层感知机的分类模型,实现了说话人个体属性(性别和年龄)的精确识别。步骤如下:对采集的说话人的语音信号进行预处理;基于所提出的时频精细分析特征提取方法,计算语音信号每一帧的时频特征,然后计算同一特征所有帧合并后的均值、标准差等统计值作为时频精细特征;利用方差分析对时频精细特征进行特征权重筛选,并输入到构建的分类模型中识别说话人的个体属性。本发明提出的时频精细分析能够增强特征表达且提高准确率,具有易于实现、鲁棒性强等优点,可应用于用户画像识别、智能客服等场景。
  • 音频处理方法、头戴显示设备和计算机可读存储介质-202310639786.0
  • 陈强;冯丹丹;晋晓琼 - 歌尔股份有限公司
  • 2023-05-30 - 2023-09-05 - G10L25/18
  • 本申请公开了一种音频处理方法、头戴显示设备和计算机可读存储介质,所述音频处理方法包括:确定各第二头显设备拾取目标音频对应的第一音频信号衰减度;从各第二头显设备中选取出第一音频信号衰减度小于预设衰减度阈值的参考头显设备,并获取参考头显设备拾取目标音频而得到的参考音频信息;拾取目标音频得到第一音频信息,根据参考音频信息,对第一音频信息进行声学参数的补偿调整,得到第二音频信息;将第二音频信息渲染至扩展现实环境。本申请能够提高扩展现实应用对音效渲染的准确性。
  • 一种基于音频数据确定音符的方法及装置-202010187328.4
  • 韩忠涛 - 北京奇艺世纪科技有限公司
  • 2020-03-17 - 2023-09-01 - G10L25/18
  • 一种基于音频数据确定音符的方法及装置,涉及数据处理领域。所述方法包括:当接收到音符确定指令时,获取待分析的音频数据;在频域中,确定音频数据包含的多个幅值峰值和每个幅值峰值对应的度量频率;从预设频率范围中选取多个初始频率;针对每个初始频率,生成预设数目个与初始频率成倍数关系的预测频率,预设数目个预测频率与初始频率之间的倍数包括1至预测数目之间的整数;根据多个预测频率、多个幅值峰值、每个幅值峰值对应的度量频率和预设损失函数,计算与该初始频率对应的函数值;将对应的函数值最小的初始频率作为音频数据的基础频率;采用预设的频率转换音符方式,确定基础频率对应的音符。采用本申请,能够提高基础频率的识别准确率。
  • 一种拖曳无源敲击式发声器的通用控制系统和方法-202211533283.7
  • 刘来华;卢怡;唐君超杰;彭文伟;向蓓 - 宜昌测试技术研究所
  • 2022-12-01 - 2023-08-29 - G10L25/18
  • 本发明提出一种拖曳无源敲击式发声器的通用控制系统和方法,该控制系统包括发声控制装置、电力控制装置、液压阀组控制器、伺服阀组控制器、溢流阀控制器、液压压力输入传感器、液压压力输出传感器、液压流量传感器和数据分析仪;所述发声控制装置用于系统液压均衡控制及声场频谱控制;所述发声控制装置通过液压控制板实现液压能量控制,在能量不足时关闭液压阀组,系统进入蓄能状态;在能量过大时开启安全溢流阀开口大小进行泄压、保证系统安全;通过本系统能够实现液压能量均衡控制及声场频谱控制,水下发声器采用拖曳式自供能模式,提升系统发声效率,精简了系统电力结构、实现电力无源化。
  • 一种基于局部注意力的多任务学习钢琴复音音乐自动记谱方法-202310557794.0
  • 王琪;刘明宽 - 北京工业大学
  • 2023-05-18 - 2023-08-29 - G10L25/18
  • 一种基于局部注意力的多任务学习钢琴复音音乐自动记谱方法属于深度学习领域。音乐自动记谱旨在将音乐音频转换为音乐符号表示。近年来,基于Transformer的深度神经网络展现出了在钢琴复音音乐自动记谱上的优势。然而,现有的基于Transformer的自动记谱方法使用绝对位置编码方式,限制了模型对任意长度音频进行记谱的灵活性,混淆了模型对于局部时变时序信息的注意力。本发明在Transformer网络中使用高效计算的自适应局部注意力机制,针对起奏与停奏子任务目标获得了最佳的注意力范围,并可在任意长度的钢琴音乐上实现自动记谱。本发明具有较高的钢琴复音音乐自动记谱性能。
  • 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法-202310627760.4
  • 高盛祥;杨元樟;余正涛 - 昆明理工大学
  • 2023-05-31 - 2023-08-29 - G10L25/18
  • 本发明涉及基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法,属于语音信号处理技术领域。本发明借助中英文等富资源语种,将柬埔寨说话人音色,转为中英文说话人音色。柬埔寨多说话人语料库稀缺,常规方法实现柬埔寨语说话人迁移性能不佳。使用中英富资源扩充数据面临着语言特征、说话人音色特征难解耦的问题,本发明使用中英富资源语料库扩增说话人音色数据,构建跨语言特征解耦器,实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容,实验结果显示,本发明方法合成音频达到了3.81的MOS评分。实现了说话人音色的有效解耦及可控迁移。
  • 一种音频场景识别方法、系统及装置-202111064395.8
  • 张鹏远;王猛;颜永红 - 中国科学院声学研究所
  • 2021-09-10 - 2023-08-29 - G10L25/18
  • 本发明涉及一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
  • 音乐识别方法、音乐识别装置、电子设备及存储介质-202310574540.X
  • 张旭龙;王健宗;程宁;赵嘉豪 - 平安科技(深圳)有限公司
  • 2023-05-19 - 2023-08-25 - G10L25/18
  • 本申请提供了一种音乐识别方法、音乐识别装置、电子设备及存储介质,属于人工智能技术领域。方法包括:获取音乐数据,音乐数据包括目标音乐的音频数据和歌词文本数据;对音频数据进行特征提取,得到目标音乐音频特征,目标音乐音频特征包含目标音乐的韵律特点;对歌词文本数据进行上下文提取,得到目标音乐歌词特征,目标音乐歌词特征包含目标音乐的文本内容特点;对目标音乐音频特征和目标音乐歌词特征进行特征拼接,得到目标音乐表征特征;基于候选音乐流派标签对目标音乐表征特征进行流派识别,得到目标音乐的目标流派类别;基于候选音乐情感标签对目标音乐表征特征进行情感识别,得到目标音乐的目标情感类别。本申请能提高音乐识别的准确性。
  • 一种对音乐或者有声视频进行确权的加密系统-202310563195.X
  • 丁龙全 - 丁龙全
  • 2023-05-18 - 2023-08-08 - G10L25/18
  • 本发明涉及声音无线传输技术领域,具体为一种对音乐或者有声视频进行确权的加密系统,包括,声音收集模块,采集原声与需要加密的音频,将需要加密的音频进行收集;音频分贝降低模块,将收集的音频的分贝进行降低;声音分区模块,将收集得到的音频分出多个音频单元;密钥生成模块,密钥生成模块内设有数据加密模块,对多个音频单元进行加密,加密形式采用莫尔斯电码的形式将音频进行加密,通过对声音进行加密的形式,提高了声音传输时的安全性,在对加密声音提取时,必须采用本系统才能对加密的声音进行破解,从而实现了声音传送时的安全性,提高了隐私性,并且加密声音与原声混合,也极大的增加了破解音频的难度,从而进一步地提高了加密声音的安全性。
  • 语音信号分析合成方法及电子设备和存储介质-202310549103.2
  • 李翰正 - 思必驰科技股份有限公司
  • 2023-05-16 - 2023-08-08 - G10L25/18
  • 本发明公开一种语音信号分析合成方法、电子设备和存储介质,其中方法包括:获取梅尔频谱,通过正弦模型将所述梅尔频谱转化成源信号;对所述源信号进行分帧,并将分帧后的源信号及所述梅尔频谱输入至神经网络模型,得到所述神经网络模型的输出结果,其中,所述分帧后的源信号与所述梅尔频谱为相同的帧级别;将所述输出结果至少通过一阶滤波器组,得到最终语音。本发明实施例通过利用正弦模型将梅尔频谱转化成源信号,并将源信号结合梅尔频谱输入至神经网络模型处理,能够去除合成音在清浊音边界的金属质感,同时降低神经网络的计算量,通过降低神经网络输出的频率,达到降低计算量。
  • 钢琴音频数据处理方法和装置、电子设备、存储介质-202310597075.1
  • 张旭龙;王健宗;程宁;茹港徽 - 平安科技(深圳)有限公司
  • 2023-05-24 - 2023-08-08 - G10L25/18
  • 本申请实施例提出的钢琴音频数据处理方法和装置、电子设备、存储介质,涉及人工智能技术领域。该方法包括:根据预设帧长对目标钢琴频谱进行切分,得到原始频谱切片;对原始频谱切片进行嵌入表示,得到频谱切片嵌入向量,并对原始频谱切片进行位置编码,得到频谱切片位置向量;将频谱切片嵌入向量和频谱切片位置向量进行向量相加,得到频谱切片目标表示向量;对频谱切片目标表示向量进行合并,得到频谱向量序列;将频谱向量序列输入至预设的注意力模型进行序列特征提取,得到音符上下文向量序列;将音符上下文向量序列输入至预设的音符预测模型进行序列特征预测,得到钢琴音符数据。本申请实施例能够提高钢琴音频的音符识别精度。
  • 一种基于FFT的螺旋桨噪声数学消唱方法及系统-202310555170.5
  • 陈伟奇 - 上海船舶运输科学研究所有限公司
  • 2023-05-17 - 2023-08-04 - G10L25/18
  • 本发明提供了一种基于FFT的螺旋桨噪声数学消唱方法及系统,基于螺旋桨噪声的时域信号数据并进行FFT处理得到频域信号,将频域信号绘制成以横坐标为频率、纵坐标为声压级的频谱图,再根据频谱图判断螺旋桨噪声的频域信号中是否出现唱音,若出现唱音,根据唱音的影响范围以及唱音在频谱图的全频带中所处位置将唱音分为第一类唱音、第二类唱音以及第三类唱音,然后分别采用不同的判断方法和计算方法对第一类唱音、第二类唱音和第三类唱音中的唱音进行消除,完成螺旋桨噪声的消唱。本发明不需要消耗时间成本与金钱成本对螺旋桨模型进行改造,且不需要改变原定试验计划中的额定工况。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top