[发明专利]一种说话人标签对齐方法、装置、电子设备及计算机可读存储介质在审

申请号：	202210125317.2	申请日：	2022-02-10
公开（公告）号：	CN114464209A	公开（公告）日：	2022-05-10
发明（设计）人：	吕翔;印晶晶;卢恒	申请（专利权）人：	上海喜马拉雅科技有限公司
主分类号：	G10L25/03	分类号：	G10L25/03;G10L17/06;G10L17/00;G10L15/28;G06K9/62;G06F17/16
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	杜杨
地址：	201100 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明的实施例提供了一种说话人标签对齐方法、装置、电子设备及计算机可读存储介质，方法包括：获取N个声道的N个说话人日志，分别对每个说话人日志进行聚类，得到聚类后的N个说话人标签集，将第一目标说话人标签集作为参考标签集，基于参考标签集，将除第一目标说话人标签集以外的N‑1个第二目标说话人标签集进行对齐处理。能够将多通道的说话人日志所对应的说话人标签进行对齐，从而使得多个通道的说话人日志对应的说话人标签集不再是相对标签，而是绝对标签，进一步提升说话人日志的准确率。
搜索关键词：	一种说话标签对齐方法装置电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海喜马拉雅科技有限公司，未经上海喜马拉雅科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202210125317.2/，转载请声明来源钻瓜专利网。

上一篇：一种采空区地表环境数据采集设备
下一篇：一种用于制备荧光材料的搅拌烘干装置

同类专利

一种音乐特征的提取方法、装置、设备和介质-202310876101.4
发明人：曹跃 -专利权人：咪咕文化科技有限公司;中国移动通信集团有限公司
申请日： 2023-07-17 - 公布日： 2023-10-27 - 主分类号： G10L25/03
摘要：本申请公开了一种音乐特征的提取方法、装置、设备和介质，从获取的音乐数据中提取音乐标签嵌入向量，并根据所述音乐标签嵌入向量构建KNN近邻图；将所述音乐标签嵌入向量输入至预设的自编码器进行特征学习，得到第一学习特征；将所述KNN近邻图和所述自编码器学习到的特征输入至预设的图卷积神经网络模型进行特征学习，得到第二学习特征；其中，所述图卷积神经网络模型至少用于学习样本间的结构信息和潜在相似性；根据所述第一学习特征和所述第二学习特征，得到最终的音乐特征向量。采用本申请，其能够保证深度学习网络对数据本身特性的提取，同时学习样本间的结构信息和高维潜在特征，加强特征向量的有效性，提高对音乐特征提取的精准性。

一种基于时频特征精细化的乐器音色转换方法-202310583605.7
发明人：韦岗;农彩艳;曹燕;王一歌 -专利权人：华南理工大学
申请日： 2023-05-23 - 公布日： 2023-10-27 - 主分类号： G10L25/03
摘要：本发明公开了一种基于时频特征精细化的乐器音色转换方法，该方法包括：构建目标音色特征库、时域特征转换和频域特征转换。步骤如下：对乐器音频数据集进行音色特征提取，建立目标音色特征库；根据目标乐器音色时域特征，对待转换单音音频进行基频调整、音长修改、时域振幅调制和基音同步插值实现时域特征转换；根据目标乐器音色频域特征，调整时域特征转换后的单音音频的谐波能量比例和各分数次谐波能量比例进行频域特征转换；经过时频特征转换即可转换出具有目标乐器音色的单音音频；对目标乐器所有单音音频进行音色转换。本发明实现了一种可以提取过渡音色的目标乐器音色转换方法。

匹配模型的训练方法、音频识别方法及相关设备-202310985340.3
发明人：王武城;龚韬 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-08-07 - 公布日： 2023-10-27 - 主分类号： G10L25/03
摘要：本申请公开了匹配模型的训练方法、音频识别方法及相关设备，该训练方法包括：根据各当前原版全音频分别和各自改版音频片段、其他原版音频之间的旋律特征距离，计算匹配模型的模型损失函数；基于模型损失函数调整初始匹配模型的模型参数，直至满足收敛条件时得到目标匹配模型；目标匹配模型用于输出待识别音频段对应的目标旋律特征，以通过目标旋律特征识别出待识别音频段所属的原版全音频。本申请有助于充分学习多段改版片段和当前原版全音频整体之间的内在联系，确保同一当前原版全音频的各改版音频片段能在特征空间内聚拢，并疏远当前原版全音频和其他原版音频之间的特征联系，提升对翻唱类等改版音频的识别准确性。

机器人基于声源定位判断交互对象的方法和系统-202211503728.7
发明人：朱世强;方伟;郑涛;谢安桓;宋伟;顾建军 -专利权人：之江实验室
申请日： 2022-11-28 - 公布日： 2023-10-24 - 主分类号： G10L25/03
摘要：机器人基于声源定位判断交互对象的方法，包括：S1.预处理信息；S2.计算机器人周边人物相对于x轴单位向量的夹角；S3.判断交互对象。在语音从开始输入至输出结束的时间内，根据声源定位的角度，再结合视觉输出的机器人周边人物的坐标，计算出机器人周边哪个人物的方位与声源定位角度最接近，最接近的人物即为与机器人交互的人物。

一种基于噪声场景识别的活动语音检测方法及系统-202010783583.5
发明人：田野;王磊 -专利权人：北京中电慧声科技有限公司;中国电子科技集团公司第三研究所
申请日： 2020-08-06 - 公布日： 2023-10-24 - 主分类号： G10L25/03
摘要：本发明公开了一种基于噪声场景识别的活动语音检测方法，从音频信号中提取面向噪声分类任务的优选特征，将特征值输入噪声类型分类器以识别音频信号中的噪声类型；根据噪声类型，确定适用于面向语音与噪声分类任务的优选特征和分类器；从音频信号中提取面向语音与噪声分类任务的优选特征，并将优选特征值输入语音噪声分类器，判断音频信号中是否存在语音信号；本发明还公开了基于噪声场景识别的活动语音检测系统。本发明公开的方法在进行含噪语音和噪音信号二分类前，对当前的噪声类型进行检测识别，针对具体噪声类型优选出最具有区分性的特征组合，可以针对具体噪声类型设计模型参数，保证了整个检测过程在不同噪声类型下性能的有效性和稳定性。

音频特征的提取方法、装置、计算机设备及存储介质-202010202360.5
发明人：缪畅宇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-03-20 - 公布日： 2023-10-17 - 主分类号： G10L25/03
摘要：本申请公开了一种音频特征的提取方法、装置、计算机设备及存储介质，所述方法包括：获取音频的特征序列；调用时间序列相关层对所述特征序列进行时域自相关处理，得到自相关向量序列；调用时频域处理层对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量。本申请采用神经网络层对音频提取到的特征向量，能够表征音频的实质特征和深层特征。

基于等响度曲线的移频实时响度补偿方法-202010717873.X
发明人：朴志刚;郑康丽;徐鹏程 -专利权人：欧仕达听力科技（厦门）有限公司
申请日： 2020-07-23 - 公布日： 2023-10-13 - 主分类号： G10L25/03
摘要：本发明涉及助听器技术领域，具体涉及基于等响度曲线的移频实时响度补偿方法，包括以下步骤：输入信号经过WOLA分析窗输出N个频带，计算得到移频参数拐点频率及截止频率，根据选定的拐点频率及截止频率，可得频率移动步长，根据拐点频率即压缩比可得到非移频信号与移频信号；通过声压级检测装置实时计算出移频信号各频带声压级及原信号频率所在的通道索引，移频信号通过移频装置得到移频后的信号及其目标通道索引；搜索等响度曲线阵列，得到得到信号声压级索引，获得补偿后的移频信号；将补偿后的移频信号与非移频信号合成，形成助听器输出信号；本发明使得移频助听器可以在任何环境下简单有效的保证了佩戴者拥有信号移频前后的感知能力。

基于音频数据预测异常状态的卷积神经网络模型TBSP-Net-202310721642.X
发明人：彭佳杰;韦驭瀚 -专利权人：西北工业大学
申请日： 2023-06-19 - 公布日： 2023-10-10 - 主分类号： G10L25/03
摘要：本发明提供了一种基于音频数据预测异常状态的卷积神经网络模型TBSP‑Net，该基于音频数据预测异常状态的卷积神经网络模型TBSP‑Net包括输入模块，特征提取模块以及分类模块，输入模块以预设采样频率获取音频数据，并对获取的音频数据进行预处理，将获取的只体现时域信息的音频数据转换为时频皆有的复合数据，防止过拟合现象，继而利用特征提取模块对转换后的复合数据进行特征提取，再利用分类模块对其分类，提高了以个体为单位的异常状态的诊断预测准确率。

一种基于音视频运维的疲劳状态的检测方法、装置及系统-202310841200.9
发明人：苏海洋;谷文宽;游晋澜;王飞鹏;李宁宁;赵立军;王琢;胡志康 -专利权人：渤海银行股份有限公司
申请日： 2023-07-10 - 公布日： 2023-10-10 - 主分类号： G10L25/03
摘要：本申请提供了一种基于音视频运维的疲劳状态的检测方法、装置及系统，检测方法包括：获取针对目标对象的原始视频，对所述原始视频进行数据处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频参数，并对视频数据进行特征提取，得到视频参数；利用音频参数与视频参数进行运维疲劳检测分析，得到疲劳指数，若疲劳指数达到预设阈值，则将目标对象确定为疲劳状态，并生成提示信息进行风险报警。采用本申请提供的技术方案能够实现对音视频运维人员的疲劳检测，及时发现疲劳风险，避免发生视频播放事故，提高了运维效率。

一种基于卷积神经网络的鲁棒性鼾声检测方法及系统-202310915532.7
发明人：刘鹏 -专利权人：成都启英泰伦科技有限公司
申请日： 2023-07-25 - 公布日： 2023-10-10 - 主分类号： G10L25/03
摘要：一种基于卷积神经网络的鲁棒性鼾声检测方法及系统，所述方法包括如下步骤：S1.构建包括远场环境的鼾声数据集；S2.提取鼾声数据集中的梅尔倒谱系数特征作为训练样本；S3.以梅尔倒谱系数特征作为输入，引用ECAPA‑TDNN残差卷积神经网络结构提取音频深层特征；S4.以步骤S3得到的音频深层特征输入二分类器进行判断是否为目标鼾声,进行迭代训练，得到鼾声检测模型；S5.使用训练完成的鼾声检测模型对环境音频进行实时检测。本发明公开的鼾声检测方法利用轻量级残差神经网络的特征提取，构建出一种具有鲁棒性的轻量化鼾声检测模型，有效提升当前检测方法的在中远距离下的检测率。

音频播放方法、车辆、移动终端及存储介质-202310844652.2
发明人：邓鑫 -专利权人：武汉星纪魅族科技有限公司
申请日： 2023-07-10 - 公布日： 2023-10-03 - 主分类号： G10L25/03
摘要：本公开涉及音频播放方法、车辆、移动终端及存储介质。所述音频播放方法包括：接收位于所述车辆内的移动终端发送的第一音频和/或第二音频；确定所述车辆的当前驾乘场景；根据所述当前驾乘场景播放所述第一音频和/或所述第二音频中的最多一种；向所述移动终端发送指令，使得所述移动终端基于所述指令将所述第一音频和/或所述第二音频中未被所述车辆播放的音频调制到超声波频段进行定向播放。所述音频播放方法能够提升驾乘人员的驾乘体验。

一种基于深度学习的短视频背景音乐剪辑方法-202310728489.3
发明人：朱玉聪;韩立新 -专利权人：河海大学
申请日： 2023-06-19 - 公布日： 2023-10-03 - 主分类号： G10L25/03
摘要：本发明公开了一种基于深度学习的短视频背景音乐剪辑方法，可以从情感和视频剪辑内容等方面进行视频与音频剪辑，该方法包含以下步骤：处理用户上传的短视频，获取短视频的特征；视频情感计算，通过Transformer特征模型计算视频的情感VA值；处理音乐库中的音乐，获取音乐的特征；通过CNN模型计算音乐的情感VA值；匹配相近的视频和音乐；音频协调性匹配，将视频和音乐通过音频协调算法进行匹配；通过用户视频的情感和内容向用户推荐最佳短视频与背景音乐的剪辑。该方法结合了视频与音乐的情感契合度与画面契合度，同时考虑了视频剪辑后期处理的音频和谐度与用户观看短视频时的视觉观感，根据不同角度为用户上传的短视频提供剪辑。

音频匹配方法、装置、计算机设备及存储介质-202010202378.5
发明人：缪畅宇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-03-20 - 公布日： 2023-10-03 - 主分类号： G10L25/03
摘要：本申请公开了一种音频匹配方法、装置、计算机设备及存储介质，涉及音频技术领域。该方法包括：获取第一音频的第一特征序列，以及第二音频的第二特征序列；调用序列互相关层对第一特征序列和第二特征序列进行互相关处理，输出互相关向量序列；调用特征提取层对互相关向量序列进行特征提取处理，输出预测向量；调用分类层对预测向量进行预测处理，输出第一音频和第二音频的相似概率。采用基于神经网络的匹配方式计算两个音频的相似度，能够对不同歌曲之间的相似度进行计算，从而对不同歌曲之间取得精度较高的相似度计算结果。

一种基于深度学习声纹识别的困难气道评估方法及装置-202110848800.9
发明人：夏明;姜虹;钱彦旻;周韧;曹爽;周之恺;徐天意;王杰;金晨昱;裴蓓 -专利权人：上海交通大学医学院附属第九人民医院;上海交通大学
申请日： 2021-07-27 - 公布日： 2023-10-03 - 主分类号： G10L25/03
摘要：本发明涉及一种基于深度学习声纹识别的困难气道评估方法及装置，方法包括以下步骤：获取患者的语音数据；对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。本发明能够精准的对临床麻醉中困难气道做出预警。

音频处理方法及装置、计算机可读存储介质及电子设备-202310803719.8
发明人：曹健;张灵鲲;许逸君 -专利权人： OPPO广东移动通信有限公司
申请日： 2023-06-30 - 公布日： 2023-09-29 - 主分类号： G10L25/03
摘要：本公开涉及音频处理技术领域，具体涉及一种音频处理方法及装置、计算机可读存储介质及电子设备，方法包括：获取双声道音频采集设备采集的初始音频信号，并对初始音频信号进行空间特征提取，以得到初始音频信号对应的空间特征数据；基于空间特征数据确定空间中多个设定方向的估计音频信号；根据第一解码矩阵和双声道音频采集设备对应的相关传递函数，对多个设定方向的估计音频信号进行处理，以得到空间音频信号。本公开实施例的技术方案降低空间音频信号的获取难度。

设备异常识别方法、装置、设备及介质-202310826342.8
发明人：刘晴 -专利权人：中国电信股份有限公司
申请日： 2023-07-06 - 公布日： 2023-09-29 - 主分类号： G10L25/03
摘要：本公开提供了一种设备异常识别方法、装置、设备及介质，涉及声音识别技术领域。该方法包括：获取待识别设备的运行声音信号；对运行声音信号进行特征提取，得到多个不同时刻的特征值；通过预设声音识别模型对当前时刻的特征值进行处理，得到待识别设备的声音类别，以根据声音类别确定待识别设备的运行状态，预设声音识别模型，根据历史运行声音信号以及对应的异常声音类别标签和异常置信度标签训练得到的，本公开通过声音识别模型针对不同的设备机型的运行声音信号进行动态推理，解决了人工判断设备故障的主观性强、准确率低的问题，通过非接触式声音识别实现了工业设备故障识别，从而提高企业生产效率，降低生产风险和生产成本。

一种移动端虚拟形象实时语音驱动表情方法及装置-202211405039.2
发明人：黄仰光 -专利权人：深圳市即构科技有限公司
申请日： 2022-11-10 - 公布日： 2023-09-26 - 主分类号： G10L25/03
摘要：本申请提出一种移动端虚拟形象实时语音驱动表情方法，包括S1：移动端采集用户的实时语音，并将实时语音组合形成音频数据包；S2：对音频数据包中的音频数据进行MFCC特征提取，将所述音频数据采用加窗和滑窗重组操作，得到特征提取后的音频数据；S3：检测音频数据是否是静音场景，若是，则返回步骤S1；若不是，则进行下一步骤；S4：将所述音频数据输入AI声音表情模型中，经过所述AI声音表情模型推理后，输出与用户嘴形相关的表情系数；S5：通过表情系数控制Avatar对应的表情。本申请的在特征提取时采用特征滑窗和重组机制，使模型的输出更加稳定，模型采用轻量化设计，满足移动端计算量需求。

信息处理系统和信息处理方法-202310087474.3
发明人：日下部雄一 -专利权人：本田技研工业株式会社
申请日： 2023-01-28 - 公布日： 2023-09-19 - 主分类号： G10L25/03
摘要：本发明提供一种提高了隐私的保护性能的信息处理系统。信息处理系统(40)具备：语音获取部(63)，其获取语音；语音分配部(64)，其输入由语音获取部(63)获取到的语音；检测部(66)，其检测至少一个语音处理部(65)的动作状态；以及控制部(67)，其控制语音分配部的动作，在检测部(66)检测到预先设定的一个语音处理部(65)的规定的动作状态时，控制部(67)停止语音向其他语音处理部(65)中的至少一部分的输入。

音频信号修正方法、装置、电子设备及可读存储介质-202310801490.4
发明人：许逸君 -专利权人： OPPO广东移动通信有限公司
申请日： 2023-06-30 - 公布日： 2023-09-19 - 主分类号： G10L25/03
摘要：本申请公开了一种音频信号修正方法、装置、电子设备及可读存储介质,应用于电子设备，方法包括：响应于音视频录制请求，基于可穿戴设备采集目标用户的头部的角度变化参数；采集目标用户发出的人声，作为人声音频信号；基于角度变化参数确定目标用户在视频画面中的位置信息；基于位置信息确定目标声源在电子设备所在的声场的位置分布；基于位置分布对人声音频信号进行修正，得到修正音频信号。通过确定目标用户在视频画面中的位置信息，再确定目标声源在电子设备所在的声场的位置分布，从而基于位置分布对人声音频信号进行修正，可以提高修正音频信号对应的音源在电子设备所在的声场的位置分布与视频画面中目标用户的位置的匹配程度。

信号之间延时的确定方法、装置、设备以及存储介质-202010437931.3
发明人：杨丹青;徐刚;许峻华 -专利权人：阿波罗智联（北京）科技有限公司
申请日： 2020-05-21 - 公布日： 2023-09-19 - 主分类号： G10L25/03
摘要：本申请公开了信号之间延时的确定方法、装置、设备以及存储介质，涉及语音技术。本公开提供的方法、装置、设备以及存储介质中，通过对信号进行降采样处理，能够降低确定延时的计算量，从而提高确定效率。而且，通过当前确定的延时能够在信号中估计出包括两个信号对齐位置的信号段，进而可以对该信号段再次执行上述处理过程，这种方式可以逐渐缩小确定范围，即可以对较短的信号进行处理，就能够得到准确的延时，从而既保证了确定的准确率，又能够降低数据处理量。

一种翻唱识别方法、装置及计算机存储介质-202010226722.4
发明人：孔令城 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2020-03-26 - 公布日： 2023-09-19 - 主分类号： G10L25/03
摘要：本申请提供了一种翻唱识别方法及装置，方法包括：获取第一音频及第一音频的频谱图、第二音频及第二音频的频谱图，其中，第一音频的频谱图是对第一音频进行信号处理得到的，第二音频的频谱图是对第二音频进行信号处理得到的；根据第一音频的频谱图，得到第一音频的节拍位置，再根据第一音频的节拍位置得到第一音频的每分钟节拍数BPM；根据第二音频的频谱图，得到第二音频的节拍位置，再根据第二音频的节拍位置得到第二音频的BPM；在第一音频的BPM与第二音频的BPM的m倍的差值小于第一预设阈值的情况下，第二音频与第一音频互为翻唱音频，其中，m是正整数。

基于音频数据的供水系统的检测方法及其装置-202310713599.2
发明人：魏学锋;姬升阳;刘志辉;朱斌;王宏超;孙长江;卢回忆;刘豪睿;刘加;曹宏;刘德广 -专利权人：三峡金沙江川云水电开发有限公司;北京华控智加科技有限公司
申请日： 2023-06-15 - 公布日： 2023-09-12 - 主分类号： G10L25/03
摘要：本申请提出了一种基于音频数据的供水系统的检测方法及其装置，涉及数据处理技术领域。该方法包括：获取供水系统对应的候选音频数据；对候选音频数据进行多个维度的特征提取，获取目标特征数据，目标特征数据包括多个维度的特征数据；将目标特征数据输入目标支持向量机SVM模型，由目标SVM模型对目标特征数据进行二分类处理，确定供水设备的工作状态；响应于工作状态为故障状态，生成告警信息。本申请可以及早发现供水系统的故障，延长设备的寿命和保持系统的高效运行。

娇喘音频的识别方法及装置、终端、存储介质-202010163085.0
发明人：郦柏金;陈万源 -专利权人：同盾控股有限公司
申请日： 2020-03-10 - 公布日： 2023-09-12 - 主分类号： G10L25/03
摘要：本发明公开一种娇喘音频的识别方法及装置、终端、存储介质，其中方法主要包括：提取样本集中样本音频的原始特征数据，并对原始特征数据进行深度特征提取得到深度特征数据；针对深度特征数据，采用双向lstm及attention的结构进行分类模型的训练；采用训练得到的分类模型预测待识别音频中存在娇喘音的概率以及娇喘音的存在位置。采用本发明，可以提高娇喘音识别的准召率，进而提高人工审核的效果减少人力成本。

一种用户信息处理系统及方法-202310633671.0
发明人：孙春树 -专利权人：拓银（深圳）数据服务有限公司
申请日： 2023-05-31 - 公布日： 2023-09-08 - 主分类号： G10L25/03
摘要：本发明涉及大数据领域，特别涉及一种用户信息处理系统，声音识别模块：用于存储用户好友的声音信息，形成预设声纹信息保存至云端；身份验证模块：用于用户在接收到陌生来电时，获取陌生来电的手机端在拨打电话时的环境声音；数据处理模块：用于对环境声音进行分析，提取环境声音中的人声，并和预设声纹信息进行对比，若匹配成功则用户手机端响铃；还涉及一种用户信息处理方法，包括以下步骤：S1：用户手机端接入互联网，在浏览时采用游客身份进行访问；S2：在浏览到需要身份认证的网页时，构建临时账户；能够对用户的身份信息进行识别，在紧急情况下仍能通过陌生电话与朋友及时取得联系。

智慧路灯离线语音系统及语音识别方法-202310780102.9
发明人：马金满;翟先文;韩晓光;吴海涛;周昊;胡正风;陈浩东 -专利权人：无锡路通视信网络股份有限公司
申请日： 2023-06-28 - 公布日： 2023-09-05 - 主分类号： G10L25/03
摘要：本申请关于智慧路灯离线语音系统及语音识别方法，涉及智慧灯具应用技术领域。该方法包括：接收音频信号；对音频信号进行特征提取，得到音频特征向量；将音频特征向量输入音频识别模型，输出与音频特征向量对应的音频识别结果；基于音频识别结果生成路灯控制指令；向智慧路灯发送控制指令。计算机设备在接收到音频后，即能够通对于音频进行分析，以得到识别结果，并将识别结果反馈至智慧路灯以控制智慧路灯执行相应的反馈。通过智慧路灯对于环境中声音的采集以及计算机设备的分析，使得智慧路灯能够高效且更为经济地获取环境情况并执行对应功能，提高智慧路灯对于环境情况的识别效率。

音频去噪方法和装置、服务器、存储介质-202010479635.X
发明人：张旭;张晨;董培 -专利权人：北京达佳互联信息技术有限公司
申请日： 2020-05-29 - 公布日： 2023-09-05 - 主分类号： G10L25/03
摘要：本公开关于一种音频去噪方法和装置、服务器、存储介质。该方法包括：获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声；获取所述带噪音频信号中当前帧信号的估计幅度数据，所述估计幅度数据用于表征去除所述瞬态噪声后对所述当前帧信号估计所得的幅度；当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据；基于所述目标幅度数据获取所述目标音频信号。本实施例中利用最小幅度数据对估计幅度数据进行调整，可以得到幅度均超过最小幅度数据的目标幅度数据，保证目标音频信号的底噪声是平滑的，避免出现声音断断续续的问题，有利于提升收听体验。

语音通信方法、设备、系统和储存介质-202310676879.0
发明人：许明伟;樊晓兵 -专利权人：深圳市汇芯通信技术有限公司
申请日： 2023-06-08 - 公布日： 2023-09-01 - 主分类号： G10L25/03
摘要：本发明提供一种语音通信方法、设备、系统和储存介质，其中，语音通信方法包括以下步骤：将两个语音通信装置通过服务器通信连接；分别采集各语音通信装置录入的音频信号并发送给另一个语音通信装置；监测语音通信装置与服务器之间的通信连接状态，当任一语音通信装置与服务器之间的通信连接断开时，录音保存语音通信装置录入的音频信号获得第一录音数据；将第一录音数据发送给服务器，并通过服务器将第一录音数据发送至另一语音通信装置。本发明通过录音保存语音通信装置与服务器断开连接的时间段的第一录音数据，保留了沟通信息，不会产生信息丢失，同时无需双方重新沟通，节约了时间，提高了沟通效率。

一种基于车载双系统内的音频系统以及策略-202310460040.3
发明人：卢腾 -专利权人：南京酷沃智行科技有限公司
申请日： 2023-04-26 - 公布日： 2023-09-01 - 主分类号： G10L25/03
摘要：本发明基于车载双系统内的音频策略，步骤如下：建立车载双系统链接通讯，在车载信息娱乐系统和车载中控系统之间连接一条音频线；车辆启动；车载信息娱乐系统启动，音频传输链路检查是否连通；若未连通，则提示用户检查线路；若连通，车载信息娱乐系统开机加载时，与车载中控系统建立A2b音频数据连接；车载中控系统识别到车载娱乐系统后，将车载信息娱乐系统音频同步设置为音频输入源；车载中控系统加载车载娱乐系统音源相关音频输入设置选项；在车载中控系统中设置音频焦点模式，设为车载中控系统音频优先、车载娱乐音频优先或自适应模式；用户在车载信息娱乐系统和车载中控系统的设置界面中调整音量，使得音量适合用户的需要。

数字音频处理方法、装置、存储介质及电子设备-202310638644.2
发明人：鲁勇;刘波;刘海平;梁健林 -专利权人：北京探境科技有限公司
申请日： 2023-05-31 - 公布日： 2023-08-29 - 主分类号： G10L25/03
摘要：本申请公开了一种数字音频处理方法、装置、存储介质及电子设备，其中，该数字音频处理方法通过采集当前音频信号；对当前音频信号进行检测，生成一防爆信号；确定防爆信号的当前信号值；根据当前信号值对累加器进行相应的控制，生成目标音频信号。本方案可以消除音频存储时的爆音。

一种语音调整方法、装置、设备、介质和产品-202310658768.7
发明人：李文兵;黄杰;王志翔;李金晶;张全龙;昂娟;程梦琴 -专利权人：中国银行股份有限公司
申请日： 2023-06-05 - 公布日： 2023-08-29 - 主分类号： G10L25/03
摘要：本申请公开一种语音调整方法、装置、设备、介质和产品，可应用于大数据领域或金融领域，获取待调整语音，若确定待调整语音的初始音量满足音量调整条件，将初始音量调整至标准音量，以及对待调整语音中包括的待纠正语音进行语音纠正，得到待调整语音对应的标准语音。其中，待纠正语音可以是指具有语音瑕疵的语音。调整后得到的标准语音的音量为标准音量，且标准语音中不包括待纠正语音。基于此，相较于待调整语音，标准语音具有标准音量且不再有语音瑕疵，可以传达更为准确的信息，从而在利用语音沟通进行业务处理时，采用本申请能够有利于提高沟通效率以及提高业务处理效率，同时，也有利于提高用户体验。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种说话人标签对齐方法、装置、电子设备及计算机可读存储介质在审

专利文献下载