“严海康”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果5个，建议您升级VIP下载更多相关专利

[发明专利]基于检测错误加权编辑距离的语音关键词样本筛选方法-CN202110938700.5有效
发明人：贺前华;严海康;兰小添;郑若伟 -专利权人：华南理工大学
申请日： 2021-08-16 - 公布日： 2023-10-27 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了基于检测错误加权编辑距离的语音关键词样本筛选方法，利用语音关键词识别模型训练过程中的输出信息，通过对样本关键词的检测错误进行加权，从而对解码序列与标签序列的编辑距离进行修订，使得重要样本可以得到更大的关注，从而筛选出不合格的语音关键词样本。本发明大大降低了人工审核所有样本的工作量，提升了筛选的效率。为语料库的清洗，构建一个高质量的语音数据集提供了一个有效的方案，减少了低资源小语种语料库建设的难度，同时也为深度神经网络提供了质量更高的语音关键词样本，推动低资源语种相关语音技术的研究发展。
基于检测错误加权编辑距离语音关键词样本筛选方法

[发明专利]一种语音关键词识别中扩增语料的选取方法-CN202010347536.6有效
发明人：贺前华;汪星;严海康 -专利权人：华南理工大学
申请日： 2020-04-28 - 公布日： 2023-02-10 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种语音关键词识别中扩增语料的选取方法，步骤包括：对含关键词的原始语音进行语音转化，得到同一语义但不同说话人信息的语音；对原始语音进行语音端点检测去除静音部分，再获取原始语音和生成语音中的关键词片段；将原始语音关键词片段分为男女两类样本，分别训练UBMM、UBMF，用第i个关键词的男女两类原始语音关键词片段分别训练GMM(M，i)、GMM(F，i)；采用GMM分离度度量判断GMM分量距离，将分离度较小的设为相似GMM分量，去除GMM(M，i)、GMM(F，i)中相似GMM分量，剩下分离度较大分量形成新的GMM′(M，i)、GMM′(F，i)，用GMM′(b，i)、GMM′(g，i)对生成语音关键词片段进行性别分类；采用改进后的评价系数对生成语音进行评价，选取训练样本。本发明能在存在样本较少或不均衡的情况下更高效地训练模型。
一种语音关键词识别扩增语料选取方法

[发明专利]一种基于改进动态时间规整算法的语音样本筛选方法-CN201911227134.6有效
发明人：贺前华;詹俊瑶;严海康;苏健彬 -专利权人：华南理工大学
申请日： 2019-12-04 - 公布日： 2022-12-16 - 主分类号： G10L15/06 文献下载
摘要：本发明公开了一种基于改进动态时间规整算法的语音样本筛选方法，包括步骤：使用基于同一文本录制多个语音样本，去除背景音并标注语音样本的元音和辅音，构建样本的语音特征序列表达；根据去除背景音后语音短时帧中元音和辅音的标注类型，通过语音短时帧内信号最大幅值的变化信息来确定过渡音，并对过渡音进行标注；分别对改进DTW算法的局部距离和整体距离进行加权计算，获得两两样本间的距离，构建所有样本的距离矩阵；根据距离矩阵对语音样本进行筛选。本发明解决了在样本数据量大、不能保证样本质量的情况下，对同一文本的语音样本的筛选问题，降低筛选成本，并为后续处理(如语料库的构建、深度神经网络的学习等)提供了更为可靠的样本数据。
一种基于改进动态时间规整算法语音样本筛选方法

[发明专利]一种解决关键词识别样本不均衡的方法-CN201910014005.2有效
发明人：贺前华;汪星;严海康 -专利权人：华南理工大学
申请日： 2019-01-08 - 公布日： 2021-03-30 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了一种解决关键词识别样本不均衡的方法，包括1)改变语音基频并保持语音语义不变，利用语音转换技术对含关键词的语音进行转换，获得同一语义样本的不同性别、不同年龄说话人的多个语音样本；2)对神经网络模型中的损失函数做自适应加权处理：使用重量交叉熵时，在每轮训练中分别计算关键词语料和非关键词语料的准确率，根据两者之差自动调节第k轮的加权系数Wk；3)自适应帧数：在使用DNN作为训练模型时根据关键词长度对不同关键词使用不同的检出帧数Li；本发明能有效缓解因数据不平衡或太少造成的训练效果差或无法训练等问题，同时能在一定程度上加快训练速度，提升训练效果。
一种解决关键词识别样本均衡方法

[发明专利]一种基于语谱图时间差分的语音音节数估计方法-CN201911331869.3在审
发明人：贺前华;苏健彬;严海康;詹俊瑶 -专利权人：华南理工大学
申请日： 2019-12-21 - 公布日： 2020-04-24 - 主分类号： G10L25/87 文献下载
摘要：本发明提供了一种基于语谱图时间差分的语音音节数估计方法，所述方法步骤包括：将语音信号的语谱图X，通过一个M阶图像后向平滑滤波器得到模糊形式语谱图X*，对其进行N阶时间差分以及M阶图像后向平滑，计算出N阶差分图S；对N阶差分图的每一列进行频率区域选择性求和，以获得初步浊音起始边界统计特征，然后通过该特征以及边界时间间隔限制G1得到初步浊音起始边界；使N阶差分图的低频部分与图案P进行局部图案匹配得到其图案特征图S*，通过图案特征图计算出匹配浊音起始边界；结合初步浊音起始边界和匹配浊音起始边界，通过一个边界时间间隔限制G2，得到最终的浊音起始边界，最后计算出音节数K。本发明具有可解释性，成本低，有着广阔的应用前景。
一种基于语谱图时间差语音音节估计方法