“柯善发”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果15个，建议您升级VIP下载更多相关专利

[发明专利]一种基于深度嵌入特征聚类的多说话人语音分离方法-CN202310245106.7在审
发明人：王晓晨;张晋恺;胡瑞敏;柯善发;吴玉林 -专利权人：武汉大学
申请日： 2023-03-10 - 公布日： 2023-07-07 - 主分类号： G10L21/0272 文献下载
摘要：本发明提供了一种基于深度嵌入特征聚类的多说话人语音分离方法。本方法包括首先将纯净音源信号的幅度谱输入到量化比例膜计算模块以计算量化比例膜，将混合语音信号的幅度谱输入到嵌入特征提取网络中，输出每个时频点对应的深度嵌入特征；之后，将混合信号对应的深度嵌入特征和量化比例膜输入到基于量化比例膜的的目标函数构建模块以计算目标函数，并基于该目标函数优化网络模型；在优化后的网络模型中，对待分离的混合信号的嵌入特征使用聚类算法，得到IBM/IRM；之后，将混合信号的幅度谱与IBM/IRM对应值作积，最后做逆傅里叶变换得到分离的音源信号。本方法可以更准确地表达语音信号的高维特征，提高了语音分离模型的性能和泛用性。
一种基于深度嵌入特征说话人语音分方法

[发明专利]一种基于两级滤波的多步音频对象编解码方法-CN202110494630.9有效
发明人：胡瑞敏;胡晨昊;王晓晨;吴玉林;张灵鲲;柯善发;刘文可 -专利权人：武汉大学
申请日： 2021-05-07 - 公布日： 2022-08-09 - 主分类号： G10L19/02 文献下载
摘要：本发明公开了一种基于两级滤波的多步音频对象编解码方法。在编码阶段，首先将输入的多个音频对象信号进行时频变换；确定对象循环下混顺序并提取每步边信息，输出最终下混信号；通过第一级滤波器，去除残差信息中人耳无法感知的冗余成分；通过第二级滤波器，根据每个子带中残差信息的能量大小，保留前n个子带中的残差；经过二级滤波后的残差信息进行奇异值分解，大尺寸的残差矩阵被压缩为较小的矩阵；将最终混合信号，参数及残差分解矩阵合成码流。在解码阶段，首先利用分解的残差矩阵重构原始残差，然后根据边信息，将多个对象从下混信号中逐步剥离。本发明通过利用心理声学和子带能量信息，滤除残差信息中的次要成分，降低音频对象编码码率。
一种基于两级滤波音频对象解码方法

[发明专利]一种应用于低码率下的多音频对象编解码方法-CN202110312781.8有效
发明人：胡瑞敏;吴玉林;王晓晨;胡晨昊;柯善发;张灵鲲;刘文可 -专利权人：武汉大学
申请日： 2021-03-24 - 公布日： 2022-06-14 - 主分类号： G10L19/02 文献下载
摘要：本发明公开了一种应用于低码率下的多音频对象编解码方法，编码阶段本方法首先将输入的多个音频对象变换到频域；然后将频域的音频对象信号下混得到混合信号，并计算单个音频对象子带被细分后的边信息矩阵；其次利用卷积自编码器中的编码模块对边信息矩阵进行降维表达；最后将混合信号和降维后的边信息合成码流。解码阶段首先分解接收到的码流，得到下混信号和边信息；然后在卷积自编码器解码器网络中引入稠密连接模块从边信息的低维结构中重构原始高维的边信息数据，最后将重建的频域音频对象信号变换为时域信号。本发明可以在低码率下全面提升音频对象信号的解码质量，以满足用户对音频对象个性化控制的需求。
一种应用于低码率下多音对象解码方法

[发明专利]一种基于栈式稀疏自编码器的面向对象编码方法-CN202011102043.2有效
发明人：胡瑞敏;吴玉林;王晓晨;胡晨昊;李罡;陈玮;柯善发;张灵鲲;刘文可 -专利权人：武汉大学
申请日： 2020-10-15 - 公布日： 2022-06-14 - 主分类号： G10L19/008 文献下载
摘要：本发明涉及数字音频信号处理技术，具体涉及一种基于栈式稀疏自编码器的面向对象编码方法，包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达，然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块，每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率，并很好地重建音频对象。因此，能在相同的比特率下获得最佳的音频对象信号音质，以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量，提高编码效率。
一种基于稀疏编码器面向对象编码方法

[发明专利]一种基于球谐选择的声场重建优化方法及系统-CN202011203139.8有效
发明人：胡瑞敏;张灵鲲;王晓晨;陈玮;柯善发;李罡;胡晨昊;吴玉林;刘文可 -专利权人：武汉大学
申请日： 2020-11-02 - 公布日： 2022-06-14 - 主分类号： H04R1/40 文献下载
摘要：本发明公开了一种基于球谐选择的声场重建优化方法及系统，其中的方法是一种可以在不改变扬声器布置的前提下优化声场重建误差的方法。优化声场重建误差时，由用户提供需要重建的目标声场对应的球谐系数，然后通过优化选择部分目标球谐系数进行优先重建，从而降低其在对该声场(例如某方向的声波)重建时的重建误差。本发明的性能优势在于同时考虑了目标重建声场以及重建的全局声场(声压)误差，能够进一步降低利用球谐表达来进行声场重建的误差。在声场重建时考虑了当前重建扬声器组对声场的表达能力，最大限度的利用了当前扬声器组的声场重建性能。
一种基于选择声场重建优化方法系统

[发明专利]交互式音频系统中的音频对象编码方法、解码方法及装置-CN202110535195.X有效
发明人：胡瑞敏;吴玉林;王晓晨;胡晨昊;柯善发;张灵鲲;刘文可 -专利权人：武汉大学
申请日： 2021-05-17 - 公布日： 2022-05-17 - 主分类号： G10L19/02 文献下载
摘要：本发明提供了一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置，其中的编码方法首先将输入的独立多个音频对象进过预处理变换到频域；然后利用非均匀子带划分算法完成子带划分，计算每个音频的对象的空间信息参数，将音频对象频域信号下混得到单声道的下混信号；其次利用深度神经网络中的编码模块对空间参数进行降维表达；最后将混合信号和压缩后的空间参数合成编码码流。与一般的音频对象编码方法相比，在相同码率下，本音频对象编码方法混叠失真有明显下降，能给用户带来更好的沉浸式体验。该方法适用于音频交互设备，且适用于多风格、多类型、多模态的音频信号。
交互式音频系统中的音频对象编码方法解码装置

[发明专利]一种基于频谱搬移的音频对象编解码方法-CN202110494218.7有效
发明人：胡瑞敏;胡晨昊;王晓晨;吴玉林;张灵鲲;柯善发;刘文可 -专利权人：武汉大学
申请日： 2021-05-07 - 公布日： 2022-05-13 - 主分类号： G10L19/008 文献下载
摘要：本发明公开了一种基于频谱搬移的音频对象编解码方法。该方法提出一种包含全局搬移和局部搬移的策略以降低混叠失真。在编码阶段，首先进行时频变换，得到多个输入信号的频谱信息；然后，判断每个子带是否发生混叠，混叠的区域将根据混叠程度排序；确定需要搬移的时频区域后，将混叠的时频点搬移至非混叠区域，搬移时分整体搬移和局部搬移两种策略，整体搬移可以大大降低需要记录的搬移信息；最后，将下混信号与边信息合成码流。在解码阶段，首先根据搬移信息将时频成分恢复至原始位置，然后按照联合音频对象编码框架SAOC进行解码。本发明通过利用频谱搬移策略，在下混过程中将混叠的时频信息搬移至非混叠区域，降低混叠失真，提升解码音频质量。
一种基于频谱搬移音频对象解码方法

[发明专利]一种基于卷积自编码器的头相关传输函数建模方法-CN201910991100.8有效
发明人：胡瑞敏;陈玮;王晓晨;柯善发;张灵鲲;李罡;张锐;胡晨昊;吴玉林 -专利权人：武汉大学
申请日： 2019-10-18 - 公布日： 2022-04-15 - 主分类号： G06N3/063 文献下载
摘要：本发明提供了一种HRTF的低维表达与重建技术方案，该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征，从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时，首先对原始HRTF数据进行移除前端时延、时‑频变换、空间方位插值、数据标准化等预处理操作，然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时，将听觉定位特征的低维表达输入解码器进行解码，然后对输出数据进行数据反标准化、数据抽样、时‑频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达，从而提高HRTF的低维表达和重建精度。
一种基于卷积编码器相关传输函数建模方法

[发明专利]一种基于高低频域分辨率切换的音频对象编解码方法-CN201910822901.1有效
发明人：胡瑞敏;武庭照;王晓晨;柯善发;胡晨昊;吴玉林 -专利权人：武汉大学
申请日： 2019-09-02 - 公布日： 2021-09-24 - 主分类号： G10L19/008 文献下载
摘要：本发明提供了一种基于高低频域分辨率切换的音频对象编解码方法。编码端：输入的多个音频对象信号首先经过预处理模块，从时域变换到频域。变换后的音频对象信号一方面混合得到单声道的混合信号；另一方面基于低频域分辨率子带进行对象信号活跃性检测，并与混合信号一起用于提取参数，其中参数提取是根据对象信号活跃性基于高或低频域分辨率进行的。最后将混合信号，活跃性表达矩阵，基于高、低频域分辨率提取的对象参数合成码流。解码端：首先分解码流得到混合信号，活跃性表达矩阵与对象参数；然后在活跃性矩阵的指导下，利用混合信号与对象参数进行音频对象信号重建。本发明方法为同时高质量编码多个音频对象提供了更好的解决方案。
一种基于低频分辨率切换音频对象解码方法

[发明专利]一种基于声学特征转换的语音清晰度增强方法-CN201910281080.5有效
发明人：胡瑞敏;李罡;张锐;柯善发;王晓晨 -专利权人：武汉大学
申请日： 2019-04-09 - 公布日： 2021-06-15 - 主分类号： G10L21/02 文献下载
摘要：本发明公开了一种基于声学特征转换的语音清晰度增强方法，本方法包括训练阶段和使用阶段；在训练阶段，结合说话人噪声对抗发声机理，使用普通语音信号与Lombard效应下的抗噪语音信号作为数据集，训练具有声学特征转换能力的映射模型，其映射特征包括语音帧频谱倾斜度、基频系数和能量系数，使用长短时记忆网络学习频谱倾斜度的特征映射能力，使用贝叶斯高斯混合模型学习基频系数和能量系数的特征映射能力；在使用阶段，基于已经训练好的特征映射模型和相应的预处理、后处理技术，将通信设备或交互设备解码后的语音信号逐帧转换为具备抗噪特性的语音信号，提升语音信号在噪声环境中播放时的听觉清晰度和感知可懂度。
一种基于声学特征转换语音清晰度增强方法

[发明专利]一种面向多音频对象的音频编码及解码方法-CN201710912599.X有效
发明人：胡瑞敏;武庭照;王晓晨;柯善发;李罡;王金山;陈玮 -专利权人：武汉大学
申请日： 2017-09-29 - 公布日： 2021-01-01 - 主分类号： G10L19/008 文献下载
摘要：本发明公开了一种面向多音频对象的音频编码及解码方法，编码时本方法首先将输入的多个音频对象信号从时域变换到频域，并将音频对象频域信号降混合得到一个单声道混合信号；根据每个音频对象信号和混合信号提取参数；并利用矩阵分解方法将大尺寸参数矩阵分解为小尺寸的系数矩阵与基矩阵；最后将混合信号与系数矩阵、基矩阵合成码流。解码时首先分解码流，根据系数矩阵与基矩阵重建得到参数矩阵；然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法提高了参数频域分辨率，并利用矩阵分解的方法降低参数编码所需码率，可以同时保证低码率和高质量地重建音频对象信号。
一种面向多音对象音频编码解码方法

[发明专利]一种适应于流媒体的音频对象编解码方法-CN201810154002.4有效
发明人：胡瑞敏;武庭照;王晓晨;柯善发;陈玮 -专利权人：武汉大学
申请日： 2018-02-22 - 公布日： 2020-10-13 - 主分类号： G10L19/032 文献下载
摘要：本发明提供了适应于流媒体的音频对象编解码方法，编码时，输入的多个音频对象信号首先经过预处理，得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号；计算增益矩阵，提取ODLR参数矩阵；增益矩阵与参数矩阵经矩阵分解得到低维度的系数矩阵和基矩阵；最后将混合信号、系数矩阵、基矩阵合成码流；解码时首先分解码流，根据系数矩阵与基矩阵重建得到参数矩阵；然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法支持以数据块的形式传输音频数据，可以适用于流媒体应用场景；并且提高了参数频域分辨率，并利用基于加权的矩阵分解的方法降低参数编码所需码率，可以同时保证低码率和高质量地重建音频对象信号。
一种适应流媒体音频对象解码方法

[发明专利]用于降低空间参数误码率的三维音频编码方法及装置-CN201510400001.X有效
发明人：胡瑞敏;杨乘;苏柳月;王晓晨;涂卫平;高戈;姜林;武庭照;柯善发 -专利权人：武汉大学
申请日： 2015-07-09 - 公布日： 2018-11-13 - 主分类号： G10L19/008 文献下载
摘要：本发明提供了用于降低空间参数误码率的三维音频编码方法及装置，以提高重建三维音频空间感知质量，包括将3D音频码流的3D空间参数部分作为MIB部分，为MIB部分添加窗W₁；将3D音频码流的下混单声道信号部分作为LIB部分，并为MIB部分和LIB部分添加窗W₂；选择窗W₁和窗W₂之一，随机产生一个度数d，从所选窗W_i中随机选取d个符号并进行模为2的异或运算，得到一个编码符号；返回生成新的编码符号，直至输出编码码流。本发明基于不等差错保护的思想，通过对重建三维音频空间感知质量起着更关键作用的空间参数部分的更重点保护，降低三维音频空间参数部分的误码率，提高重建三维音频的空间感知质量。
用于降低空间参数误码率三维音频编码方法装置

[发明专利]一种多声道系统效果增强方法及系统-CN201510535017.1有效
发明人：胡瑞敏;王松;王晓晨;方博伟;杨乘;武庭照;张灵鲲;柯善发;杨玉红;涂卫平 -专利权人：武汉大学
申请日： 2015-08-27 - 公布日： 2017-04-12 - 主分类号： H04S3/00 文献下载
摘要：一种多声道系统效果增强方法及系统，包括扬声器阵列呈正多面体结构摆放时，获取正多面体顶点处扬声器的坐标，构建新的扬声器摆放点，获取新的扬声器摆放点的位置信息，计算所有扬声器的初始分配信号，将新扬声器摆放点处的扬声器信号分配给正多面体顶点处扬声器，通过求和的方法获取正多面体顶点处各个扬声器的最终分配信号，删除新的扬声器摆放点处的扬声器。本发明技术方案可增加空间信息的分解成份，更充分保持原点处、左、右耳处处声音的物理性质，有利于多声道系统重建效果的增强。
一种多声道系统效果增强方法

[发明专利]一种3D音频空间参数全方位非均匀量化编码系统及方法-CN201410855935.8在审
发明人：胡瑞敏;高丽;杨玉红;王晓晨;涂卫平;武庭照;柯善发;张茂胜;李登实;王松;姜林;杨乘 -专利权人：武汉大学
申请日： 2014-12-31 - 公布日： 2015-03-25 - 主分类号： G10L19/038 文献下载
摘要：本发明提供一种3D音频空间参数全方位非均匀量化编码系统及方法，包括基于双声道输入信号进行预处理、声道信号下混、下混信号量化编码；按子带提取空间参数，所述空间参数为声道间强度差异参数ICLD；根据全方位角度JND得到全方位角度量化表；根据输入的扬声器的空间位置信息，建立在两扬声器所夹区域之间所形成虚拟声像的方位角与空间参数的映射表，从全方位角度量化表映射得到空间参数量化表；进行空间参数全方位的非均匀量化压缩编码，对输入的扬声器空间位置信息进行熵编码。本发明基于人耳对全方位的角度感知差异特性自适应地根据扬声器方位信息生成全方位空间参数非均匀量化表，相比现有方法，本发明明显提高了编码效率和质量。
一种音频空间参数全方位均匀量化编码系统方法

1
共 15 条