[发明专利]一种基于双向卷积循环稀疏网络的音乐情感识别方法有效

申请号：	201910485792.9	申请日：	2019-06-05
公开（公告）号：	CN110223712B	公开（公告）日：	2021-04-20
发明（设计）人：	杨新宇;董怡卓;罗晶;张亦弛;魏洁;崔宇涵;夏小景;吉姝蕾	申请（专利权）人：	西安交通大学
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/63;G10H1/00
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	范巍
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于双向卷积循环稀疏网络的音乐情感识别方法。本发明结合卷积神经网络和循环神经网络自适应地从原始音频信号的二维时频表示(即时频图)中学习内含时序信息的情感显著性特征。进一步地，本发明提出采用加权混合二进制表示法，通过将回归预测问题转化为多个二分类问题的加权联合来降低数值型真实数据的计算复杂度。实验结果表明，双向卷积循环稀疏网络提取的内含时序信息的情感显著性特征与MediaEval 2015中的最优特征相比表现出更优的预测性能；提出的模型与目前普遍的音乐情感识别网络结构和最优方法相比训练时间减少且预测精度提高。因此，本发明方法有效解决了音乐情感识别的精度和效率的问题，而且优于现有的识别方法。
搜索关键词：	一种基于双向卷积循环稀疏网络音乐情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于双向卷积循环稀疏网络的音乐情感识别方法，其特征在于，该方法首先将音频信号转化为时频图；其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征，简称SII‑ASF，同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度；最后进行音乐的连续情感识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910485792.9/，转载请声明来源钻瓜专利网。

上一篇：基于麦克风信号的语音交互唤醒电子设备、方法和介质
下一篇：声音事件检测模型训练方法及声音事件检测方法

同类专利

基于双分支卷积增强窗口注意力的一维时序信号增强方法-202311046070.6
发明人：张晨辉;原之安;钱宇华 -专利权人：山西大学
申请日： 2023-08-18 - 公布日： 2023-10-27 - 主分类号： G10L25/30
摘要：本发明属于语音信号处理技术领域，具体涉及一种基于双分支卷积增强窗口注意力的一维时序信号增强方法。本发明的方法包括收集纯净一维时序信号与噪音一维时序信号并进行预处理，构建含噪一维时序信号X，构建一维时序信号增强网络，训练一维时序信号增强网络和对实际一维时序信号进行增强处理五个步骤。通过以上步骤可以解决传统Transformer在捕获局部上下文信息时能力不足以及计算全局注意力时的高计算复杂度问题，可以更好的对一维时序信号进行增强。

语音模型的量化方法、装置、服务器及存储介质-202311206261.4
发明人：周伟;赵楚涵 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-09-19 - 公布日： 2023-10-27 - 主分类号： G10L25/30
摘要：本申请实施例公开了一种语音模型的量化方法、装置、服务器及存储介质，涉及人工智能领域。包括：获取原始语音模型，原始语音模型为训练完成的神经网络模型；基于第一量化策略和第二量化策略中的至少一种确定目标参数，第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数，第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数；对原始语音模型的目标参数进行量化，得到量化语音模型；在量化语音模型满足模型精度需求和压缩率需求的情况下，将量化语音模型确定为目标语音模型。采用本申请实施例的方法，可以对原始语音模型中影响程度较小的权重参数进行量化，从而兼顾模型的预测效果和模型的体积大小。

一种声音识别方法、装置、电子设备及存储介质-202310868878.6
发明人：白欲立;屠程远;李亦硕 -专利权人：联想新视界（北京）科技有限公司
申请日： 2023-07-17 - 公布日： 2023-10-27 - 主分类号： G10L25/30
摘要：本申请公开了一种声音识别方法、装置、电子设备及存储介质，该方法包括：获取符合第一要求的第一声音数据；将第一声音数据划分为多个识别单元；基于识别单元构建用于特征提取的三通道图片；将三通道图片输入到目标神经网络中，以对三通道图片进行特征提取，生成多个特征图；将特征图分别输入到与目标神经网络连接的全连接层分类网络和对比学习卷积网络进行处理，以分别得到特征图的交叉熵损失数据以及对比学习损失数据；将交叉熵损失数据以及对比学习损失数据进行融合，生成相应的损失数据，其中损失数据用于对目标神经网络进行训练；基于训练后的目标神经网络对目标声音数据进行识别。该方法能够准确确定出目标物的故障概率分布。

一种基于时空特征注意力模型的伪造音频检测方法及装置-202310772789.1
发明人：卢立;王琨;巴钟杰;林峰;任奎 -专利权人：浙江大学杭州国际科创中心
申请日： 2023-06-28 - 公布日： 2023-10-24 - 主分类号： G10L25/30
摘要：本发明公开了一种基于时空特征注意力模型的伪造音频检测方法及装置，包括以下步骤：(1)构建一个基于时空特征注意力的检测模型；(2)基于已有的只包含平稳音频的英文公开数据集，对检测模型进行预训练；(3)混合中文音频数据集和英文音频数据集，同时引入不同音频信号失真手段，得到跨语言模态的复杂音频数据集；(4)对复杂音频数据集进行数据增强；(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练，通过将检测模型的能力迁移训练到复杂音频，得到最终检测模型；(6)将待检测的音频输入到最终检测模型，得到是否为伪造音频的检测结果。本发明能够在跨语言模态和存在信道扰动的情况下将伪造音频精准检测。

一种工业设备异常声音检测方法及系统-202310987478.7
发明人：余永升;祝锐;曾强;黄灿 -专利权人：海纳科德（湖北）科技有限公司
申请日： 2023-08-07 - 公布日： 2023-10-24 - 主分类号： G10L25/30
摘要：本发明提供一种工业设备异常声音检测方法及系统，包括：异常声音检测模型包括：第一检测网络和第二检测网络；通过样本数据对第一检测网络进行训练，获得第一正常分数和第一异常分数；通过样本数据对第二检测网络进行训练，获得第二正常分数和第二异常分数；通过第一正常分数、第一异常分数、第二正常分数和第二异常分数，计算获得AUC分数；将AUC分数最高的异常声音检测模型作为训练好的异常声音检测模型；通过训练好的异常声音检测模型对待检测声音进行识别，获得工业设备的异常检测结果。本发明通过计算AUC分数准确的评价异常声音检测模型的识别精确度，选取AUC分数最高的异常声音检测模型作为训练好的异常声音检测模型，保证最终的识别效果。

一种音频类别的确定方法、装置、电子设备及存储介质-202311182243.7
发明人：张德俊;王秋明 -专利权人：北京远鉴信息技术有限公司
申请日： 2023-09-14 - 公布日： 2023-10-24 - 主分类号： G10L25/30
摘要：本申请提供了一种音频类别的确定方法、装置、电子设备及存储介质，确定方法包括：对待检测音频进行处理，对傅里叶变换处理后的待检测音频进行音频特征提取；将音频特征输入至音频类别检测模型的扩散网络层之中，确定出待检测音频的音频特征相对应的视频特征；将视频特征以及音频特征输入至分类网络层之中，对视频特征以及音频特征进行特征融合，并确定出融合后的特征，并对融合后的特征进行分类，输出待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。

一种基于流形测度的多模型融合的语音鉴伪识别方法-202310979700.9
发明人：田野;汤跃忠;陈云坤;付泊暘 -专利权人：北京中电慧声科技有限公司;中国电子科技集团公司第三研究所
申请日： 2023-08-07 - 公布日： 2023-10-20 - 主分类号： G10L25/30
摘要：本发明提出了一种基于流形测度的多模型融合的语音鉴伪识别方法，方法包括：对测试语音进行预处理；再将测试语音输入到至少两个鉴伪模型，并获取输出的与鉴伪模型数量匹配的鉴伪特征；将鉴伪特征串联后进行ONPE变换，构建得到测试语音的流形空间；度量测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离，作为识别相似度得分；将识别相似度得分与预先配置的判别阈值进行比对，根据比对结果确定鉴伪结果。本发明通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分，从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。

基于人工智能的噪声预测方法-202311116773.1
发明人：范智刚;周伟;杜建伟;盖学刚 -专利权人：青岛朗兹环保科技有限公司
申请日： 2023-09-01 - 公布日： 2023-10-17 - 主分类号： G10L25/30
摘要：本发明涉及人工智能技术领域，具体涉及基于人工智能的噪声预测方法，包括：获取空气质量指数；获取振动信号和噪声信号；划分时间窗口；获取空气质量指数初值差分序列；获取空气质量指数异质性系数；获取空气质量指数差异离散性系数；获取基于时间窗口的空气质量指数修正序列；获取修正序列的随机项；获取空气质量指数的噪声贡献序列；采用相同的步骤，根据振动信号划分时间窗口，截取振动信号初值差分序列；将振动信号初值差分序列转换到频域信号；获取振动信号的噪声贡献序列；获取噪声贡献序列；将得到的参数输入到神经网络中，实现噪声预测。该噪声预测方法针对环境因素具备较高的鲁棒性，具有更加全面的预测效果。

自适应声掩蔽方法、装置、设备及可读存储介质-202311140087.8
发明人：郑建辉;盛勇;刘祖德 -专利权人：广州声博士声学技术有限公司
申请日： 2023-09-06 - 公布日： 2023-10-17 - 主分类号： G10L25/30
摘要：本申请属于声掩蔽的技术领域，公开了一种自适应声掩蔽方法、装置、设备及可读存储介质，该方法包括：基于延迟求和算法对二维麦克风阵列采集的室内音频信号进行计算，得到室内声能图，其中，室内声能图为室内声源平面的声音强度分布地图；重复执行将本地数据库中掩蔽声梅尔谱图与室内声能图组合成两通道图像输入至训练好的预设卷积神经网络中进行特征提取及特征融合，得到在预设个舒适度分数值上的概率，以最大概率的舒适度分数值对应的舒适度等级为预测舒适度等级的步骤，直至预测舒适度等级为舒适时停止；基于扬声器播放预测舒适度等级为舒适的掩蔽声梅尔频谱图对应的掩蔽声音频。本申请可有效结合室内声能图以及人的听觉感受自适应播放掩蔽声。

一种韵律迁移方法、装置、可读存储介质及终端设备-202310732204.3
发明人：赵之源;黄东延 -专利权人：深圳市优必选科技股份有限公司
申请日： 2023-06-19 - 公布日： 2023-10-10 - 主分类号： G10L25/30
摘要：本申请属于语音处理技术领域，尤其涉及一种韵律迁移方法、装置、计算机可读存储介质及终端设备。所述方法包括：获取目标韵律特征和原始声音频谱；使用预设的韵律迁移模型对所述目标韵律特征和所述原始声音频谱进行韵律迁移，得到具有所述目标韵律特征的目标声音频谱；其中，所述韵律迁移模型为在预训练的声学模型中加入韵律编码器得到的模型，所述韵律编码器用于对韵律特征进行编码。通过上述方法，可以在预训练的声学模型中加入韵律编码器，有效降低模型训练时占用的算力资源，提升了模型训练效率。

音频信号处理方法、装置、电子设备及存储介质-202010427008.1
发明人：董培;张旭 -专利权人：北京达佳互联信息技术有限公司
申请日： 2020-05-19 - 公布日： 2023-10-10 - 主分类号： G10L25/30
摘要：本公开关于一种音频信号处理方法、装置、电子设备及存储介质，其中方法通过获取待处理音频信号，对待处理音频信号进行子带分解，得到多个子带信号分别对应的能量谱，并将每个子带信号分别对应的能量谱输入深度学习降噪模型，得到去噪后的与各子带信号的能量谱对应的音频特征，进而根据各子带信号的能量谱对应的音频特征对各子带信号进行重建，得到目标音频信号，由于其深度学习降噪模型是通过采样频率低于采样频率阈值的样本音频信号训练后得到的，因此，训练数据较容易获取，且极大的降低了模型的运算量，从而提高了处理效率。

调整均衡器的方法、装置、设备和计算机可读存储介质-202110215351.4
发明人：刘云峰;王艺鹏;李远杭 -专利权人：北京百度网讯科技有限公司
申请日： 2021-02-25 - 公布日： 2023-10-03 - 主分类号： G10L25/30
摘要：本公开公开了调整均衡器的方法、装置、设备和计算机可读存储介质，涉及人工智能领域，尤其涉及语音和深度学习领域。调整均衡器的方法包括确定音频信号的音频特征。该方法还包括将神经网络模型应用于音频特征以确定音频信号的目标类型，神经网络模型利用音频信号的音频特征来确定音频信号的类型。该方法还包括确定与目标类型相对应的均衡器调整参数。该方法还包括将均衡器调整参数应用于均衡器以调整音频信号。通过该方法，可以快速地改进音频信号的音频特性，提高了用户体验，满足了用户的调音需求。

语音流利度识别方法、装置、计算机设备及可读存储介质-201811093169.0
发明人：蔡元哲;程宁;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-09-19 - 公布日： 2023-09-26 - 主分类号： G10L25/30
摘要：本发明涉及一种语音流利度识别方法、装置、计算机设备及可读存储介质，其中的方法包括：构建语音识别模型；对待检测语音进行预处理得到连续的语音帧序列，将所述连续的语音帧序列输入到所述语音识别模型中；根据所述语音识别模型确定出所述连续的语音帧序列对应的语音流利度；检测待检测语音中所述连续的语音帧序列确定得到的各语音流利度是否相同；当相同时，将所述语音流利度确定为所述待检测语音对应的客户的流利度；当不同时，将各所述语音流利度中较低一级的语音流利度确定为所述待检测语音的流利度。本发明的有益效果为：实现了基于深度学习网络神经的对客服语音的更智能、更准确的流利度判断。

基于优化BP神经网络的输电线路可听噪声评价方法及系统-202310777592.7
发明人：石鑫;谢连科;崔相宇;侯肖邦;尹建光;臧玉魏;张永;巩泉泉;张国英;李方伟;郭本祥;闫文晶;马俊杰;何旭东;魏清泉 -专利权人：国网山东省电力公司电力科学研究院
申请日： 2023-06-28 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本发明属于可听噪声评价技术领域，提供了基于优化BP神经网络的输电线路可听噪声评价方法及系统，针对输电线路产生的可听噪声对居民的影响程度难以评价的问题，提出的方案为：首先，通过偏移进化及Tent混沌序列改进的蜉蝣算法对传统BP神经网络的阈值与权值进行全局寻优。接着提取输电线可听噪声信号的倍频程声压级特征，然后构建以该特征为输入而主观评价值为输出的神经网络模型，最后进行训练与测试。采用METCMA‑BP神经网络对输电线路可听噪声的大小进行评价，可以使得评价结果充分考虑附近居民的主观想法及输电线路所在地区的客观环境条件，使得评价结果更加精确。

一种基于轻量化CRNN模型的声音事件检测方法-202310972370.0
发明人：郭方洪;孙家辉;文颖;吴祥;董辉;陈博 -专利权人：浙江工业大学
申请日： 2023-08-03 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本发明公开了一种基于轻量化CRNN模型的声音事件检测方法，包括对声音信号进行预处理操作后进行快速傅里叶变换，使得声音信号的时域信号变换到频域信号；对频域信号中的每帧信号的每个频率点求能量得到能量谱；对能量谱进行梅尔滤波处理并求对数得到对数梅尔图；将对数梅尔图输入至轻量化CRNN模型中得到声音事件的分类结果。本基于轻量化CRNN模型的声音事件检测方法中的轻量化CRNN模型中GhostNet特征提取网络是使用超参数复数化卷积层替换原GhostNet特征提取网络中的普通卷积层，进而达到减少参数和降低模型复杂度的效果，在GRU递归神经网络中加入注意力机制能有效提升预测效果。

音频信号的处理方法、装置、电子设备及可读存储介质-202210828382.1
发明人：郑宇星;温亮;王立众 -专利权人：北京三星通信技术研究有限公司;三星电子株式会社
申请日： 2022-07-13 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本申请实施例提供了一种音频信号的处理方法、装置、电子设备及可读存储介质，该方法包括：确定待处理的音频信号对应的第一运算掩码和第二运算掩码；基于音频信号的频谱与第一运算掩码和第二运算掩码，得到增强后的音频信号。同时，由电子设备执行的上述音频信号的处理方法可以使用人工智能模型来执行。本申请实施例通过引入两种运算掩码，相比于现有技术，其修复频谱空洞与频谱缺失的能力更强。

基于反卷积理论的深海垂直阵水下目标高精度定位方法-202310746007.7
发明人：沈同圣;吕嘉辉;罗再磊 -专利权人：中国人民解放军军事科学院国防科技创新研究院
申请日： 2023-06-25 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本发明公开了基于反卷积理论的深海垂直阵水下目标高精度定位方法，涉及水声工程、海洋工程技术领域，该方法结合深海直达声区的环境特点以及反卷积特性，对反卷积过程进行频域加速、迭代次数自适应调整以及边界拓展优化，并利用优化后的反卷积技术实现对深海直达声区下的声源多途到达角提取，再与仿真声场获得的多途到达角特征模板值进行匹配，进而实现对深海声源目标的高精度定位。能够克服现有定位方法在深海环境下对于信号带宽的严格限制，弥补现有方法在深海直达声区远距离范围内的定位性能不足，在保证计算效率的情况下实现对较复杂深海环境下的声源目标高精度定位。

值得保护的城市声景观品质自动监测方法-202111035031.7
发明人：马蕙;朱国风;贾怡红 -专利权人：天津大学
申请日： 2021-09-04 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本发明公开了一种值得保护的城市声景观品质自动监测方法，首先对值得保护的城市声景观进行录音采集；把采集的声音信号转换为数字信号，再与不同类型、不同声级大小的噪声信号进行混缩得到混缩噪声信号；对所有信号指代声景观品质的指标进行计算，从而获得每一个采集片段的指标参量；以原声景观信号作为对照组，以混缩噪声信号作为评价组，将二者进行比较评价，得到每一个采集片段中声景观品质受到影响程度的评价等级；然后建立决策树分类模型，基于得到的决策树分类模型的分支条件，获取指代声景观品质的指标的不同组合方式与声景观品质受影响程度之间的关系，用于实践中对声景观品质监测，对声景观的受影响程度进行分类识别。

基于神经网络的语音端点检测方法、装置、设备及介质-202011309613.5
发明人：郑振鹏;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2020-11-20 - 公布日： 2023-09-22 - 主分类号： G10L25/30
摘要：本申请涉及语音检测技术领域，揭露一种基于神经网络的语音端点检测方法、装置、设备及介质，其中方法包括对样本语音文件进行声学特征提取，对每帧语音特征进行分配上下文特征信息，得到特征矩阵，通过神经网络模型对特征矩阵进行特征处理，得到一维特征向量，并对一维特征向量进行语音帧的序列信息进行学习处理，得到预测值；计算预测值与真实语音值的损失函数值，并根据损失函数值更新神经网络模型的网络参数，再通过训练好的神经网络模型输出待检测语音文件的预测结果。本申请还涉及区块链技术，样本语音文件存储于区块链中。本申请通过结合上下文特征信息，训练神经网络模型，有利于提高神经网络的语音端点检测的准确度。

基于跨语言预训练模型的藏汉语音到语音翻译方法及系统-202310664414.3
发明人：赵悦;刘柔贺;徐晓娜 -专利权人：中央民族大学
申请日： 2023-06-06 - 公布日： 2023-09-19 - 主分类号： G10L25/30
摘要：本发明公开了一种基于跨语言预训练模型的藏汉语音到语音翻译方法及系统，涉及语音翻译技术领域，通过构建藏汉平行语音语料库，并进行特征提取，得到源语言梅尔谱图和目标语言梅尔谱图，将源语言梅尔谱图进行编码处理，得到输出结果；构建声谱预测模型，引入多头注意力机制计算注意力权重，对输出结果分配注意力权重，得到注意力上下文向量，同时对目标语言梅尔谱图进行重构，并将注意力上下文向量和重构结果进行拼接，得到预测的梅尔谱图；将预测的梅尔谱图输入到声码器中，得到目标语言语音，在此预测过程中不需要任何中间文本的支持，可以有效降低级联式语音到语音翻译系统中的三大弊端，具有重要理论研究意义。

基于智能语音技术的闪电哨声波自动识别方法及系统-202111109574.9
发明人：王桥;泽仁志玛;申旭辉;袁静;杨德贺;李文静 -专利权人：应急管理部国家自然灾害防治研究院
申请日： 2021-09-22 - 公布日： 2023-09-15 - 主分类号： G10L25/30
摘要：本发明提供了一种基于智能语音技术的闪电哨声波自动识别方法及系统。该方法包括：从SCM载荷VLF波段的原始波形数据中截取音频数据，组成音频数据集；对音频数据集进行去趋势处理，获得进行去趋势处理之后的音频数据集；对去趋势处理之后的音频数据集提取闪电哨声波的MFCCs音频特征；利用MFCCs音频特征训练LSTM神经网络分类器；利用训练好的LSTM神经网络分类器识别闪电哨声波。本发明提供的基于智能语音技术的闪电小声波自动识别方法及系统能够使得闪电哨声波的自动识别算法适合于星载应用。

一种语音信号处理方法、装置和可读存储介质-202311007867.5
发明人：袁斌;艾国;杨作兴 -专利权人：北京边锋信息技术有限公司
申请日： 2023-08-10 - 公布日： 2023-09-12 - 主分类号： G10L25/30
摘要：本发明实施例提供了一种语音信号处理方法、装置和可读存储介质，可应用于神经网络处理器NPU。所述方法包括：将语音的时域信号输入第一算子，通过所述第一算子对所述时域信号进行分帧及加窗，输出重叠帧向量；所述第一算子通过一维卷积实现；将所述重叠帧向量输入第二算子，通过所述第二算子对所述重叠帧向量进行快速傅里叶变换，输出频域信号；所述第二算子通过线性函数实现，所述线性函数用于执行所述重叠帧向量与预置的权重矩阵的乘法计算。本发明实施例可以在低资源的NPU上实现STFT，降低资源成本，并且语音信号处理过程不需要经过CPU处理，可以实现端到端结构，提高语音信号处理的实时性。

基于神经网络的音频丢包修复方法、设备和系统-202010200811.1
发明人：肖全之;闫玉凤;黄荣均;方桂萍 -专利权人：珠海市杰理科技股份有限公司
申请日： 2020-03-20 - 公布日： 2023-09-12 - 主分类号： G10L25/30
摘要：本发明公开了一种基于神经网络的音频丢包修复方法、设备和系统，其中，所述音频丢包修复方法包括：获取音频数据包，音频数据包包括若干帧音频数据帧，若干帧音频数据帧中至少包含多个语音信号帧；确定丢失的语音信号帧在若干帧音频数据帧中所处的位置得到丢帧的位置信息；所处的位置包括第一预设位置或第二预设位置；根据丢帧的位置信息选择用于修复丢帧情况的神经网络模型，神经网络模型包括第一修复模型和第二修复模型；将若干帧音频数据帧送入选择的神经网络模型，以对丢失的语音信号帧进行修复。能够适应选择修复模型，对丢失语音信号帧的修复更有针对性，继而，提高修复准确率。

生成对抗网络的训练、方言转换方法、装置及电子设备-202310499126.7
发明人：钟雨崎;艾国;杨作兴 -专利权人：北京边锋信息技术有限公司
申请日： 2023-05-06 - 公布日： 2023-09-08 - 主分类号： G10L25/30
摘要：本发明实施方式提出生成对抗网络的训练、方言转换方法、装置及电子设备。生成对抗网络包含判别器及作为生成器的方言转换模型，方法包括：确定属于第一方言的第一音频特征；将第一音频特征输入生成对抗网络，以对方言转换模型及判别器进行交替迭代训练，直到方言转换模型输出的第二音频特征的质量达到预定条件，其中第二音频特征属于第二方言；其中交替迭代训练包括：将第一音频特征输入方言转换模型，以生成第二音频特征；将第二音频特征输入方言转换模型，以生成属于第一方言的第三音频特征；将第二音频特征输入判别器，以得到第二音频特征是否属于第二方言的第一判别结果。生成高准确度的方言转换模型，便于数据增强和方言转换等众多应用。

基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法-202310794719.6
发明人：徐华兴;苗政辉 -专利权人：郑州大学
申请日： 2023-06-30 - 公布日： 2023-09-05 - 主分类号： G10L25/30
摘要：本发明公开了一种基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法，旨在解决如何快速、准确地根据少量测量方位数据即可获得受试者全方位的个性化HRTF的技术问题。其包括以下步骤：对CIPIC数据库中HRTF数据进行预处理；对预处理过后的所有俯仰角下的所有方位的三维幅度谱重新排列，得到空间方位‑频率通道的二维幅度谱；保留所述二维幅度谱部分空间方位所有频率的幅度值，其余方位的幅度值置0，得到输入数据集；建立用于个性化HRTF重构的神经网络结构；将预处理后的数据输入到所述神经网络结构中进行训练，形成用于个性化HRTF重构的神经网络模型。本发明模型复杂度低，在平均对数频谱失真、均方根误差方面表现出良好性能，且训练时间短。

一种基于神经算法多源音频特征的智能仿真方法和系统-202310476734.6
发明人：边仿;宋绯飞;王友建 -专利权人：昆山海菲曼科技集团股份有限公司
申请日： 2023-04-28 - 公布日： 2023-09-05 - 主分类号： G10L25/30
摘要：本发明请求保护一种基于神经算法多源音频特征的智能仿真方法和系统，通过采集仿真音频源数据，基于高斯神经网络方法提取出当前帧的识别用户，采集质量等级音频帧并计算预先选定的音高中心和中断片段内的实时平均用户元数据信息作为确定仿真模型召回度信息的依据，之后确定仿真模型的实时召回度结合仿真模型的实时召回度的自适应调整策略，匹配仿真模型与音频源数据的相应位置；最终音频源乐器的周期管理器通过定时信号反馈音频源乐器并存储在音频接收器端的音频源乐器白名单库中。该方案通过准确的音频帧识别和质量性能值粗细结合识别出不同等级的音频源乐器内容，达到自适应音频源乐器等级准确收集音频源乐器的效果。

语音检测方法、语音检测装置、电子设备及存储介质-202310632768.X
发明人：郭洋;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-09-05 - 主分类号： G10L25/30
摘要：本申请提供了一种语音检测方法、语音检测装置、电子设备及存储介质，属于金融科技领域，通过对原始语音进行语音特征提取，得到原始语音特征图，将原始语音特征图输入语音检测模型，通过第一注意力网络对原始语音特征图进行多尺度特征提取，得到多个第一中间语音特征图，对每一第一中间语音特征图进行权重提取处理，得到第一注意力权重，根据第一注意力权重对第一中间语音特征图进行加权计算，得到第二中间语音特征图，通过第二注意力网络对第二中间语音特征图进行多尺度特征提取，得到目标语音特征图，根据目标语音特征图对原始语音进行语音检测，得到语音检测结果，语音检测结果用于表征原始语音是否为合成语音，能够提高语音检测的准确率。

一种多模态的投诉识别方法、装置和系统-201910943563.7
发明人：苏绥绥;常富洋 -专利权人：北京淇瑀信息科技有限公司
申请日： 2019-09-30 - 公布日： 2023-09-05 - 主分类号： G10L25/30
摘要：本发明公开了一种多模态的投诉识别方法、装置和系统，用于识别用户通话内容是否包含投诉内容，其中方法包括：接收所述用户通话中的用户语音，将所述用户语音转化为声波波形；将所述声波波形转化为图像序列数据，同时识别所述声波波形的文本内容数据；根据所述图像序列数据和所述文本内容数据计算反映投诉概率的得分；根据所述得分判断所述用户通话是否包含投诉内容。本发明通过将用户语音转化成图像序列数据和文本内容数据，再分别对图像序列数据和文本内容数据进行情绪识别，提高了情绪识别的准确性。

一种基于智能音频的铁路设备声学监测系统及方法-202310666153.9
发明人：伍宇韬;李凯 -专利权人：北京凯斯隆机电技术开发有限公司
申请日： 2023-06-06 - 公布日： 2023-09-01 - 主分类号： G10L25/30
摘要：本发明涉及铁路轨道监测技术领域，公开了一种基于智能音频的铁路设备声学监测系统及方法，系统包括：智能音频设备端和云服务器端；智能音频设备端包括：通信单元、音频采集单元、声学智能处理单元、本地存储单元及本地报警单元；智能音频设备端通过预设多元拾音方式收集铁路设备不同场景声音信息后基于预设声学模型进行降噪、分离及分类处理，构建典型场景目标特征数据库，并对异常音频进行存储及预警处理；云服务器端接收、存储及分析处理智能音频设备端的声音信息和异常结果信息，实现了铁路设备状态的实时监控、异常音频唤醒和预警。通过本发明的监测系统，能够精准预知铁路设备故障点并及时处理，有效提高了铁路运输智能水平和安全生产水平。

音质评估方法、装置、电子设备及存储介质-202110806154.X
发明人：张旭;郑羲光;张晨;郭亮 -专利权人：北京达佳互联信息技术有限公司
申请日： 2021-07-16 - 公布日： 2023-09-01 - 主分类号： G10L25/30
摘要：本公开关于一种音质评估方法、装置、电子设备及存储介质，所述音质评估方法包括：获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双向卷积循环稀疏网络的音乐情感识别方法有效

专利文献下载