[发明专利]基于语音时频变换特征和整数线性规划的录音终端聚类方法在审
申请号: | 201810735094.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108922559A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 李艳雄;张雪;张聿晗;李先苦 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/45 | 分类号: | G10L25/45;G10L25/18;G10L25/03;G10L25/24;G10L25/27;G10L25/48 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音时频变换特征和整数线性规划的录音终端聚类方法,步骤如下:a、对读入的录音进行预处理;b、从每帧语音中提取GTCC特征;c、构造带瓶颈层的深度自编码网络并提取瓶颈特征;d、构造高斯超矢量特征;e、对a中预处理得到语音提取频谱图特征;f、将e中的频谱图特征拼接在d中的高斯超矢量之后,得到最后刻画录音终端特性的语音时频变换特征;g、利用整数线性规划算法对所有录音样本的语音时频变换特征进行聚类,将聚类结果作为最终的分类依据。本方法的特征提取和聚类均是无监督的,与目前有监督方法相比,更具普适性。 | ||
搜索关键词: | 时频变换 聚类 录音 语音 整数线性规划 预处理 频谱图 高斯 终端 瓶颈 分类依据 聚类结果 矢量特征 特征提取 语音提取 终端特性 矢量 构造带 普适性 无监督 自编码 读入 算法 拼接 样本 刻画 网络 监督 | ||
【主权项】:
1.一种基于语音时频变换特征和整数线性规划的录音终端聚类方法,其特征在于,所述的录音终端聚类方法包括以下步骤:1)读入语音:读入由不同录音终端录制的录音样本;2)预处理:对读入的录音样本进行预加重、分帧、加窗、离散傅里叶变换、取绝对值操作;3)提取GTCC特征:从录音样本提取GTCC特征;4)提取瓶颈特征:以GTCC特征作为输入,构建DAN特征提取器,从DAN提取瓶颈特征;5)构造高斯超矢量特征:以全部录音样本的瓶颈特征作为输入,训练一个UBM,再为每个录音样本自适应生成一个GMM并将GMM的均值矢量依次拼接构成高斯超矢量特征;6)提取频谱图特征:将预处理后的语音进行归一化、灰度图谱分块、子图块统计量拼接等处理;7)构造语音时频变换特征:将每个录音样本的频谱图特征与高斯超矢量拼接起来,得到该录音样本的语音时频变换特征;8)录音终端聚类:采用整数线性规划算法对全部录音样本的语音时频变换特征进行聚类,估计录音终端个数并将相同录音终端的录音样本合并为一类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810735094.5/,转载请声明来源钻瓜专利网。