[发明专利]一种基于改进势函数的语音信号混合矩阵估计方法在审
申请号: | 201910287096.7 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110060698A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 李一兵;吴静;孙骞;田园;叶方;张慧;张羽;酒铭杨 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于改进势函数的语音信号混合矩阵估计方法,包括以下步骤:步骤1:建立观测信号的线性瞬时混合模型;步骤2:对步骤1得到的单源点进行低能量点去除和归一化处理;步骤3:采用改进势函数估计混合矩阵。本发明所提出的混合矩阵估计算法适用于任意矩阵;本发明抗噪声性能好,即使在信噪比为5dB的情况下,也具有良好的准确度。 | ||
搜索关键词: | 混合矩阵 势函数 语音信号 矩阵 瞬时混合模型 归一化处理 抗噪声性能 准确度 改进 估计算法 观测信号 低能量 信噪比 源点 去除 | ||
【主权项】:
1.一种基于改进势函数的语音信号混合矩阵估计方法,其特征在于,包括以下步骤:步骤1:建立观测信号的线性瞬时混合模型,具体为:其中x(t)=[x1(t),x2(t),…,xN(t)]T是一个N维观测信号向量,A=[a1,a2,…,aM]是一个N×M维的混合矩阵,s(t)=[s1(t),s2(t),…,sM(t)]T是一个M维的源信号向量,t是时间采样点并且ai表示混合矩阵的第i个列向量;对所述观测信号的线性瞬时混合模型进行短时傅里叶变换,得到:其中,X(t,f)=[X1(t,f),…,XN(t,f)]T和S(t,f)=[S1(t,f),…,SM(t,f)]T分别是观测信号和源信号在时频点(t,f)的短时傅里叶变换系数;进行单源点检测,得到满足检测规则的单源点,所述检测规则为:其中ε1为正数,且ε1<0.1,Re()和Im()分别表示取复数的实部和虚部;步骤2:对步骤1得到的单源点进行低能量点去除和归一化处理:不符合||X(t,f)||>λ·max||X(t,f)||的单源点为低能量点,去除掉所述低能量点,其中参数λ∈(0,1);将观测信号对称到上半平面,并进行归一化处理,归一化处理后的观测信号为:步骤3:采用改进势函数估计混合矩阵:所述改进势函数为:zk是第k个聚类中心向量,K是聚类中心的数目,b是尺度参数,是xi的归一化形式;包括以下步骤:(3a)通过相关比较法估计参数γ,参数b的估计为:其中是混合信号的均值;(3b)求取聚类中心,具体为:对改进势函数进行求导得到公式如下:采用固定点迭代法估计聚类中心,具体为:随机生成一个单位向量作为初值z,根据进行迭代,直到z值不再变化,则此时z值为估计出的聚类中心,共得到M个聚类中心,所述聚类中心是混合矩阵的列向量;(3c)求解经过步骤2得到的单源点与每个聚类中心的距离,每个单源点属于最小距离对应的聚类中心,将属于同一个聚类中心的单源点求均值,该均值则为新的聚类中心,共得到M个新的聚类中心;(3d)将M个新的聚类中心代入(3c),重复(3c)的过程,直到得到的聚类中心不再发生变化,,则最终的混合矩阵由此时M个聚类中心对应的M个列向量构成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910287096.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种情感特征提取方法
- 下一篇:一种基于深度稀疏展开的单信道语音分离方法
- 同类专利
- 一种语音信号处理方法、装置、电子设备和存储介质-201910682976.4
- 聂镭;沙露露;聂颖 - 龙马智芯(珠海横琴)科技有限公司
- 2019-07-26 - 2019-10-29 - G10L21/0272
- 本发明公开了语音信号处理方法,通过端点检测对语音信号中非语音部分进行切除,获得若干第一语音信号片段;对所述若干第一语音信号片段进行贝叶斯信息准则BIC检测,获得说话人转变点;将所述说话人转变点作为分割点,对所述若干语音信号片段分割,获得若干第二语音信号片段,因此,可以解决传统的基于BIC的分割方法计算效率低下的问题,实现了对语音信号的说话人转变点的准确快速识别的效果。
- 音频处理的方法、系统及相关设备-201910453493.7
- 周维聪;涂臻 - 深圳追一科技有限公司
- 2019-05-28 - 2019-10-15 - G10L21/0272
- 本申请提供了音频处理的方法、系统及相关设备。所述方法包括:获取音频数据;根据所述音频数据,获得人声音频数据以及切换点;根据所述切换点,将所述人声音频数据转换为m个单声数据;将所述m个单声数据进行聚类,得到n个音频组,其中,所述n个音频组中的每个音频组的单声数据属于同一个对话者。
- 音频单音色分离方法、装置、计算机设备及存储介质-201910511337.1
- 吴冀平;亢祖衡;彭俊清;王健宗 - 平安科技(深圳)有限公司
- 2019-06-13 - 2019-10-15 - G10L21/0272
- 本发明公开了一种音频单音色分离方法、装置、计算机设备及存储介质,应用于音频处理技术领域,用于解决现有技术无法实现单音色分离的问题。本发明提供的方法包括:获取待音频分离的目标音频;确定针对目标音频所需分离的各个音色种类;从预先训练好的各个LSTM神经网络中选取出与各个音色种类对应的一个LSTM神经网络,作为目标LSTM神经网络,各个LSTM神经网络分别采用不同的音色种类组合所对应的音频样本预先训练得到,每个音色种类组合由两个以上音色种类组成;将目标音频作为输入投入至目标LSTM神经网络,得到输出的各个目标频谱图;将各个目标频谱图分别进行时域变换,得到各个目标频谱图各自对应的目标单音色音频,作为目标音频的音频分离结果。
- 基于人声模型的单通道声音分离方法-201611237076.1
- 曹裕行 - 云知声(上海)智能科技有限公司
- 2016-12-28 - 2019-10-15 - G10L21/0272
- 本发明涉及一种基于人声模型的单通道声音分离方法,包括如下步骤:利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;提供输入信号;利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;构建所述输入信号的背景声功率;依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声,可以用于语音增强和人声提取等领域,实用性较强。
- 一种复合材料结构的损伤信号盲源处理方法、装置和系统-201510542304.5
- 董韶鹏;袁梅;喻亮;牛奔;何一强 - 北京航空航天大学
- 2015-08-28 - 2019-10-08 - G10L21/0272
- 本发明公开一种复合材料结构的损伤信号盲源处理方法,包括:通过监测复合材料结构损伤,获得传感信号;将已知加载信号作为所述传感信号的参考通道信号,与所述传感信号共同作为观测信号;对所述观测信号进行预处理,得到预处理后的数据矩阵;对所述预处理后的数据矩阵进行盲源分离,获得分离出的AE信号;对分离出的AE信号进行小波消噪处理,得到消噪后的分离信号。本发明还公开了一种复合材料结构的损伤信号盲源处理装置和系统。
- 一种基于L1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统-201610452012.7
- 周健;路成 - 安徽大学
- 2016-06-20 - 2019-10-08 - G10L21/0272
- 本发明公开了一种基于L1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统。在单通道语音增强中,假设含噪语音信号v(i)为噪声信号n(i)和语音信号s(i)加性不相关,即v(i)=n(i)+s(i),利用CNMF方法对特定噪声进行训练得到噪声基信息;然后以噪声基作为先验信息,使用CNMF_L1/2方法对含噪语言进行分解得到语音基,最后合成去噪后的语音。本发明方法能更好地刻画帧之间语音的相关性;并且使用L1/2正则项对语音基系数矩阵进行强稀疏约束,可实现分离后的语音包含更少的残留噪声。相较与传统方法如谱减法、维纳滤波法以及最小均方差对数域谱估计法等,更能够提高增强后语音的可懂度。
- 一种实时语音说话人分离方法及系统-201910549060.1
- 周晓天;黄希;崔莉 - 中国科学院计算技术研究所
- 2019-06-24 - 2019-10-01 - G10L21/0272
- 本发明公开了一种实时语音说话人分离方法及系统,该方法包括以下步骤:获取语音片段,对所述语音片段对应的说话人进行分类,获得与其匹配的通用背景模型;对所述语音片段进行特征提取,基于所提取特征和所述通用背景模型建立说话人临时模型;将所建立的说话人临时模型与已有同类说话人模型进行比对,判断所述说话人是否为已有说话人,并基于判断结果进行说话人模型的更新。本发明能满足说话人分离任务实时在智能终端设备上的执行;可扩展智能终端设备的能力,更快得到说话人分离的结果;节约了由于网络传输带来的延迟,并减少随着智能终端设备增多给网络带来的传输负担。
- 盲音分离方法、结构及语音控制系统和电器总成-201610866508.9
- 杨世清;陈海雷;王岩 - 合肥美的智能科技有限公司
- 2016-09-29 - 2019-09-17 - G10L21/0272
- 本发明涉及语音控制领域,特别是涉及盲音分离方法、结构及语音控制系统和电器总成。盲音分离方法包括:对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;以非高斯度量,对预处理后的语音信号构建目标函数;通过迭代算法估计所述目标函数期望最大的分离矩阵W;利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。本发明基于家电工作环境中噪声干扰会导致语音识别率下降,影响语音控制功能。本技术针对家电的实际工作环境,做出线性瞬间系统假设,针对线性瞬时混合系统,提出基于ICA的盲源分离技术,达到语音信号降噪的效果。
- 一种声气信号分离与合成的方法及系统-201511033483.6
- 滕少华;霍颖翔;张巍 - 广东工业大学
- 2015-12-30 - 2019-09-06 - G10L21/0272
- 本发明公开了一种声气信号分离与合成的方法及系统,方法包括:将采样的人声语音信号由时域转换到频域,得到原始的频谱图;根据原始的频谱图测定人声语音信号的基频;在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到对应的声音信息频谱图以及对应的气音信息频谱图;分别对声音信息和气音信息进行处理;将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。本发明能将声音信息与气音信息进行分离,以单独对声音信号或气音信号进行修改等后续处理,可广泛应用于信号处理领域。
- 一种采集电话音频并分离通话双方音频信号的装置-201910389902.1
- 宗东东;龚雪菲 - 北京蓝旷科技有限公司
- 2019-05-10 - 2019-08-09 - G10L21/0272
- 本发明实施例公开了一种采集电话音频并分离通话双方音频信号的装置,所述采集电话音频并分离通话双方音频信号的装置为语音处理设备,所述语音处理设备安装在电话手柄与电话机之间,电话机通过RJ9线与语音处理设备连接,语音处理设备通过RJ9线与电话手柄连接,所述语音处理设备上设置有USB输出端,语音处理设备通过USB数据线与电脑连接、本发明解决了现有电话语音信号不能分离,通话双方声音不能分离的问题。
- 一种基于改进势函数的语音信号混合矩阵估计方法-201910287096.7
- 李一兵;吴静;孙骞;田园;叶方;张慧;张羽;酒铭杨 - 哈尔滨工程大学
- 2019-04-11 - 2019-07-26 - G10L21/0272
- 本发明公开了一种基于改进势函数的语音信号混合矩阵估计方法,包括以下步骤:步骤1:建立观测信号的线性瞬时混合模型;步骤2:对步骤1得到的单源点进行低能量点去除和归一化处理;步骤3:采用改进势函数估计混合矩阵。本发明所提出的混合矩阵估计算法适用于任意矩阵;本发明抗噪声性能好,即使在信噪比为5dB的情况下,也具有良好的准确度。
- 一种基于深度稀疏展开的单信道语音分离方法-201910421602.7
- 关键;孙建国;秦颖鑫;袁野;尹晗琦;田野;王文博;林尤添 - 哈尔滨工程大学
- 2019-05-21 - 2019-07-26 - G10L21/0272
- 本发明提供的是一种基于深度稀疏展开的单信道语音分离方法。步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏NMF和深度展开对单信道语音语音分离问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。该方法将稀疏非负矩阵分离与深度展开方法相结合,对语音分离具有一定效果。
- 一种基于迭代结构的双耳混合语音分离方法-201610824648.X
- 周琳;李楠;束佳明;吴镇扬 - 东南大学
- 2016-09-14 - 2019-07-26 - G10L21/0272
- 本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。
- 基于多分辨率的听觉感知语音特征参数提取方法-201910297406.3
- 林琳;孙晓颖;陈建;刘璐;于帆;王知强;张骞;武艺 - 吉林大学
- 2019-04-15 - 2019-07-12 - G10L21/0272
- 本发明涉及一种基于多分辨率的听觉感知语音特征参数提取方法,属于语音信号处理领域。以噪声环境下单通道输入语音信号为研究对象,通过对输入信号进行时频表示,在不同分辨率下提取基于自适应压缩滤波器组的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,使用ARMA模型对特征进行平滑处理,来进一步提高语音分离性能。优点在于:采用掩蔽作为分离目标,特征参数的有效性对分离效果的影响,为提高分离后语音的可懂度提供了一个重要的理论依据;利用自适应压缩滤波器组对输入信号进行滤波,在不同分辨率下,提取每通道的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,更好地提高分离特征的语音感知能力,进而提高语音分离的性能。
- 声音信号中主音高的获取方法及系统-201610156616.7
- 曹裕行 - 云知声(上海)智能科技有限公司
- 2016-03-18 - 2019-07-09 - G10L21/0272
- 本发明涉及一种声音信号中主音高的获取方法及系统,该方法包括:提供声音信号并对声音信号进行分帧以形成声音信号分帧;利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;获取所述频域信号中幅度的峰值点;计算所述峰值点的谐波和;利用概率转换公式将所述谐波和中的幅度转换为概率,再通过维特比算法选取最强概率的频率曲线;以及将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。本发明通过计算声音信号的峰值点、谐波和、以及概率转换公式,进而获得声音信号的主音高,提高了音高获取的准确率,进而使得通过音高提取人声成为可能。本发明解决了现有采用人耳听觉识别音高的不准确的问题。
- 音乐分离方法、装置及计算机可读存储介质-201910008846.2
- 朱清影;程宁;王健宗 - 平安科技(深圳)有限公司
- 2019-01-04 - 2019-06-07 - G10L21/0272
- 本发明涉及语音语义技术领域,公开了一种音乐分离方法,该方法包括:获取初始样本数据,所述初始样本数据包括多种乐器的初始样本数据,其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面;从所述初始样本数据中选取不同种乐器的初始样本数据进行混合,生成混合音频数据作为训练数据,并基于所述训练数据,训练得到分离乐器声音模型。之后,该方法获取输入的待分离的混合音视频,利用训练后的分离乐器声音模型,从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本发明还提出一种音乐分离装置以及一种计算机可读存储介质。本发明能为音乐家调整视频、音频提供、便利,分离准确且人力资源消耗少。
- 信号分离方法、装置、设备及存储介质-201910218087.2
- 徐燃;刘东强 - 北京儒博科技有限公司
- 2019-03-21 - 2019-05-28 - G10L21/0272
- 本发明实施例公开了一种信号分离方法、装置、设备及存储介质。其中,该方法应用于多声源场景中,该方法包括:依据波束成形算法中的角度信息,对环形麦克风阵列所围成的圆周进行均匀分割操作,得到各波束音区;采用语音采集系统采集混合原始声源信号,其中,所述语音采集系统由所述环形麦克风阵列构成;对所述混合原始声源信号进行初步分离,确定各波束音区输出的初步声源信号;根据回声消除原理,对各初步声源信号进行消除处理,得到各初步声源信号对应的目标声源信号。本发明实施例提供的技术方案,能够准确地分离出各目标声源信号,且可适用于多声源场景中,为多声源场景中准确分离各个声源提供了一种新思路。
- 一种双通道欠定卷积混叠信号盲分离方法-201811434791.3
- 解元;谢胜利;谢侃;吴宗泽 - 广东工业大学
- 2018-11-28 - 2019-04-23 - G10L21/0272
- 本发明涉及一种双通道欠定卷积混叠信号盲分离方法,包括以下步骤:S1:采集语音信号和音乐信号,并合成双通道欠定卷积混叠信号;S2:对欠定卷积混叠信号进行数学建模,得到欠定卷积混叠模型的数学表达式;S3:对观测信号进行傅里叶变换得到频域上的混叠信号x(f,n),在频域上估计混叠矩阵S4:利用估计的混叠矩阵在频域上分离源信号,得到S5:对频域上分离的源信号进行逆傅里叶变换,从而得到时域上的估计源信号本发明引用平行因子分解估计混叠通道矩阵,利用最小失真原则和K‑means聚类方法解决尺度和排序不确定问题,然后利用维纳滤波法分离源信号,相比于其他算法,本发明的分离效果更优越。
- 声音处理设备、声音处理方法以及存储介质-201410158313.X
- 光藤祐基 - 索尼公司
- 2014-04-18 - 2019-04-09 - G10L21/0272
- 公开了一种声音处理设备、声音处理方法以及存储介质。该声音处理设备包括因子分解单元和提取单元。因子分解单元被配置成将通过对多个声道的声音信号进行时间频率变换而获得的频率信息因子分解成表示声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及表示时间方向的属性的时间矩阵。提取单元被配置成将声道矩阵与阈值进行比较,并且从声道矩阵、频率矩阵及时间矩阵提取由该比较的结果指定的分量,以生成关于来自所期望的声音源的声音的频率信息。
- 一种基于统计模型的双传感器语音增强方法与装置-201610025390.7
- 张军;陈鑫源;潘伟锵;宁更新;冯义志;余华;季飞;陈芳炯 - 华南理工大学
- 2016-01-14 - 2019-04-09 - G10L21/0272
- 本发明公开了一种基于统计模型的双传感器语音增强方法与装置,该方法首先结合非气导传感器语音和气导传感器语音来构建当前用于分类的语音联合统计模型以及进行端点检测,通过联合统计模型的分类结果来计算最佳气导语音滤波器,对气导语音进行滤波增强,然后通过映射模型将非气导语音转换为具有气导特征的气导语音,并与滤波增强后的语音进行加权融合,以进一步提高语音的质量。本方法采用两级语音增强的结构方法,在气导语音因强噪声而滤波效果不好时,第二级语音增强将滤波语音与非气导语音的映射语音进行自适应加权融合,能在强噪声环境下获得更好的语音增强效果,该方法可广泛应用于视频通话、车载电话、多媒体教室、军事通信等多种场合。
- 一种稳健的欠定盲分离源数及混合矩阵估计方法及装置-201510664194.X
- 黄翔东;靳旭康 - 天津大学
- 2015-10-14 - 2019-03-05 - G10L21/0272
- 本发明公开了一种稳健的欠定盲分离源数及混合矩阵估计方法及装置,方法包括:对观测频谱进行频谱校正;利用谱校正结果构造M×Q维的谐波参数矩阵,并对构造的矩阵进行归一化;对归一化后的矩阵建立距离矩阵,判断距离矩阵的每一列中元素是否小于阈值ξ,元素都不小于阈值的列对应的频率为重叠频率,将该频率对应的列从归一化后的矩阵中剔除;对处理后的矩阵计算势函数,并搜索势函数的峰值,确定源数目估计和混合矩阵估计。装置包括:输入模块、处理模块和输出模块。本发明针对周期平稳信号的欠定盲分离系统,可高精度地估计源信号数目和混合矩阵;利用频谱校正法处理观测信号,使得势函数求取得以快速实现,降低了后续计算量,提高了时效性。
- 语音分离方法和装置-201410189386.5
- 杨小洪;肖玮;梁山;刘文举 - 华为技术有限公司;中国科学院自动化研究所
- 2014-05-06 - 2019-02-01 - G10L21/0272
- 本发明实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。
- 用于语音实时降噪的方法和设备-201310033310.9
- 朱宝 - 北京千橡网景科技发展有限公司
- 2013-01-25 - 2019-01-11 - G10L21/0272
- 本发明的各实施方式涉及一种用于语音实时降噪的方法和设备。具体地,所述方法例如可以包括:对实时语音数据进行分帧处理;设置动态能量阈值;基于所述动态能量阈值来获取平稳的噪声谱;基于谱减法生成经降噪的语音数据;以及消除所述经降噪的语音数据中残留的随机噪声。并且,提供了与所述方法相对应的设备。通过使用本发明的各实施方式提供的方法和设备能够对实时语音降噪同时不损伤语音的音质,从而获得良好的用户体验。
- 基于DNN的说话人无关单通道录音分离的方法和系统-201810576208.6
- 徐海青;赵永生;吴立刚;章爱武;陈是同;徐唯耀;秦浩;王文清;郑娟;秦婷;梁翀;浦正国;张天奇;余江斌;韩涛;杨维;张才俊;孙林檀;田诺;潘子春;李葵;李明;张引强;黄影 - 安徽继远软件有限公司;国网信息通信产业集团有限公司;国网安徽省电力有限公司信息通信分公司;国家电网有限公司
- 2018-06-06 - 2018-12-18 - G10L21/0272
- 本发明公开了一种基于DNN的说话人无关单通道录音分离的方法和系统,属于技术领域,具体步骤包括对训练集的语料进行分词处理,同时对词语进行向量编码,通过分词处理和词语向量编码的过程,用矩阵将一段语句表示出来生成词向量,然后将生成的词向量作为输入样本,输入到卷积神经网络中。本发明提出的组合优化算法在对文本情感特征的自动学习上有着不错的效果,模型的训练速度也大大的提高,分类结果准确度高、自动学习能力强。
- 语音信号分离方法、装置、计算机设备以及存储介质-201810802835.7
- 张超钢 - 广州酷狗计算机科技有限公司
- 2018-07-20 - 2018-12-07 - G10L21/0272
- 本发明公开了一种语音信号分离方法、装置、计算机设备以及存储介质,属于语音信号处理领域。所述方法包括:对待分离的音频文件的声波波形进行采样,得到音频信号;将音频信号从时域转换至频域,得到音频信号的频谱,频谱仅用于表示音频信号的振幅且振幅为实数;将音频信号的频谱进行分解,得到伴奏频谱与人声频谱;将伴奏频谱与人声频谱从频域转换至时域,得到伴奏音频与人声音频。本发明利用转换时仅用实数来表示音频帧的振幅的变换算法,来进行时域到频域以及频域到时域的变换,由于变换前后均不会对相位进行变换,相位信息不受损失,因此,基于这种转换方式从音频文件中分离伴奏和人声,避免傅里叶变换频谱分解的相位失真问题。
- 一种聊天机器人的多人语音分离方法及系统-201810612893.3
- 刘宏哲;张启坤 - 北京联合大学
- 2018-06-14 - 2018-11-30 - G10L21/0272
- 本发明提供一种聊天机器人的多人语音分离方法及系统,其中方法包括使用麦克风采集语音信号得到混合信号,还包括以下步骤:对所述混合信号x进行预处理;随机生成解混矩阵w;采用负梯度下降法求所述解混矩阵w的负梯度方向;判断所述解混矩阵w是否收敛;使用改进差商法求最优解混矩阵;求源信号的估计信号;输出分离的语音。本发明提出的一种聊天机器人的多人语音分离方法及系统,解决FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题,引入负梯度下降法,克服初值敏感性,增强算法收敛稳定性;提出改进差商法,代替FastICA的优化算法——牛顿法,避免因求导和雅可比矩阵计算导致的计算量大的问题。
- 一种基于NMF算法的单传声器语音分离方法-201710137777.6
- 李军锋;李煦;颜永红 - 中国科学院声学研究所
- 2017-03-09 - 2018-09-25 - G10L21/0272
- 本发明提供了一种基于NMF算法的单传声器语音分离方法,该方法针对每个说话人的训练数据得到很多较小的字典矩阵和一个状态序列,以此来同时描述语音信号的谱结构信息和时间连续性;针对不同帧混合语音,相比于传统的算法采用了较大的字典矩阵而言,由于本发明的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱,避免了一个说话人的字典描述出另一个说话人的语音信息的现象发生,提高了算法的鲁棒性和语音分离效果。
- 一种人声提取方法、系统以及人声音频播放方法及装置-201310108032.9
- 佘海波;王进军;刘书昌;张欣 - 南京中兴软件有限责任公司
- 2013-03-29 - 2018-09-25 - G10L21/0272
- 本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,其中,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从样本中检测出主音高;以主音高为参照频率,将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。
- 一种音频数据的处理方法及装置-201610518086.6
- 朱碧磊;李科;吴永坚;黄飞跃 - 腾讯科技(深圳)有限公司
- 2016-07-01 - 2018-09-25 - G10L21/0272
- 本发明公开了一种音频数据的处理方法和装置,该音频数据的处理方法包括:获取待分离音频数据;获取该待分离音频数据的总频谱;对该总频谱进行分离,得到分离后歌声频谱和分离后伴奏频谱,其中歌声频谱包括乐曲的歌唱部分所对应的频谱,伴奏频谱包括伴随衬托歌唱所述乐曲的演奏部分所对应的频谱;根据该分离后歌声频谱和分离后伴奏频谱对该总频谱进行调整,得到初始歌声频谱和初始伴奏频谱;根据该待分离音频数据计算伴奏二值掩膜;利用该伴奏二值掩膜对该初始歌声频谱和初始伴奏频谱进行处理,得到目标伴奏数据和目标歌声数据。上述音频数据的处理方法能较完整的从歌曲中分离出伴奏和歌声,失真度低。
- 基于多目标优化联合块对角化的卷积盲信号分离方法-201510229408.0
- 张伟涛;郭交;杨若男;楼顺天 - 西安电子科技大学
- 2015-05-07 - 2018-07-03 - G10L21/0272
- 本发明公开一种基于多目标优化联合块对角化的卷积盲信号分离方法,主要解决现有技术无法从卷积混叠信号中准确分离出所有源信号的问题。其实现步骤为:(1)获取观测数据;(2)计算观测数据的二阶时延相关矩阵;(3)构造块对角化矩阵,并进行子阵划分;(4)建立关于块对角化矩阵的多目标优化模型;(5)根据多目标优化模型,估计块对角化矩阵;(6)判断前后两次块对角化矩阵估计误差的差值绝对值是否大于迭代终止阈值,若是,则输出块对角化矩阵,否则返回步骤(5);(7)利用块对角化矩阵从观测信号中分离出源信号。本发明能从卷积混叠信号中准确分离出所有源信号,且复杂度低,分离效率高,可用于对语音信号、通信信号的处理。
- 专利分类