[发明专利]一种基于声纹识别的S-T分类方法、装置及设备终端有效
申请号: | 201910798357.1 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110544481B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 陈增照;刘三女牙;刘桂麟;何秀玲;戴志诚;陈荣;张婧 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/22;G10L25/24 |
代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 赵伟 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 识别 分类 方法 装置 设备 终端 | ||
1.一种基于声纹识别的S-T分类方法,其特征在于,包括以下步骤:
获取课堂开始后设定时间内的语音片段作为目标语音样本数据,根据从所述目标语音样本数据中提取的声纹特征建立目标声纹标准模型;
获取待检测的课堂语音数据,通过话语检测将所述课堂语音数据分割为不同的语音片段,每个语音片段包含单一说话人的语音数据;具体的:
根据课堂语音数据的音频特征查找所述课堂语音数据中话语部分的起止点并切分出所有语音片段;利用贝叶斯信息准则将相邻且属于同一说话人的语音片段合并;
分别将各语音片段与所述目标声纹标准模型进行匹配并计算相似性得分,将所述相似性得分高于预设的得分阈值的语音片段判定为目标语音,分别得到教师话语、学生话语的语音片段;
分别统计教师话语行为、学生话语行为所在时间段,并采用动态补偿法将其转换为离散的行为序列;基于所述行为序列计算课堂中教师话语的占有量和话轮转换次数,确定课堂的教学模式。
2.如权利要求1所述的S-T分类方法,其特征在于,所述目标声纹标准模型的建立过程包括以下步骤:
通过大量非目标的语音数据对高斯混合模型进行训练,得到背景通用模型;
将目标语音样本数据输入所述背景通用模型中,通过最大后验概率自适应得到目标声纹标准模型。
3.如权利要求2所述的S-T分类方法,其特征在于,各语音片段的相似性得分为其语音数据在目标声纹标准模型、背景通用模型下的概率得分的差值;
计算公式为:
Score(O)=log P(O|λGMM)-log P(O|λUBM)
其中,log P(O|λGMM)代表测试语音数据在目标声纹标准模型(GMM)下的概率得分,logP(O|λUBM)代表测试语音数据在背景通用模型(UBM)下的概率得分。
4.如权利要求1或3所述的S-T分类方法,其特征在于,所述声纹特征包括13维梅尔倒谱系数和其一阶差分、二阶差分系数。
5.一种基于声纹识别的S-T分类装置,其特征在于,包括模型建立单元、话语分割单元和分类单元;
所述模型建立单元用于获取课堂开始后设定时间内的语音片段作为目标语音样本数据,根据从所述目标语音样本数据中提取的声纹特征建立目标声纹标准模型;
所述话语分割单元用于获取待检测的课堂语音数据,通过话语检测将所述课堂语音数据分割为不同的语音片段,每个语音片段包含单一说话人的语音数据;该话语分割单元包括切分模块和合并模块;
所述切分模块用于根据课堂语音数据的音频特征查找所述课堂语音数据中话语部分的起止点并切分出所有语音片段;
所述合并模块用于利用贝叶斯信息准则将相邻且属于同一说话人的语音片段合并;
所述分类单元用于分别将各语音片段与所述目标声纹标准模型进行匹配并计算相似性得分,将所述相似性得分高于预设的得分阈值的语音片段判定为目标语音,分别得到教师话语、学生话语的语音片段;分别统计教师话语行为、学生话语行为所在时间段,并采用动态补偿法将其转换为离散的行为序列;基于所述行为序列计算课堂中教师话语的占有量和话轮转换次数,确定课堂的教学模式。
6.如权利要求5所述的S-T分类装置,其特征在于,所述模型建立单元包括第一创建模块和第二创建模块;
所述第一创建模块用于通过大量非目标的语音数据对高斯混合模型进行训练,得到背景通用模型;
所述第二创建模块将目标语音样本数据输入所述背景通用模型中,通过最大后验概率自适应得到目标声纹标准模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910798357.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别资源切换方法和装置
- 下一篇:一种单通道语音分离系统