[发明专利]一种基于深度学习的语音会话分割方法在审
申请号: | 202111245978.0 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113963718A | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 姜元春;葛鸿飞;钱洋;刘业政;孙见山;柴一栋;袁昆;周凡;李浩 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G10L25/27 | 分类号: | G10L25/27;G10L25/45;G10L25/78;G10L25/24;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语音 会话 分割 方法 | ||
本发明公开了一种基于深度学习的语音会话分割方法,包括:1获取会话语音集合并进行分帧和短时加窗处理;2筛除静音段;3提取语音信号的显式特征;4提取语音信号的隐式特征5κ‑means聚类。本发明方法在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。
技术领域
本发明属于语音数据处理分析领域,具体的说是一种基于深度学习的语音会话分割方法。
背景技术
在当今互联网大数据背景下,对特定数据进行处理分析,变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”,即从数据中抽取有用信息,机器学习尤其是深度学习的算法很大程度上依赖于数据表征,因而如何利用互联网上海量数据,自监督式挖掘其自身潜在有效信息,受到研究者们的广泛关。说话人分割聚类技术作为一项重要的前端处理技术,它可以获取一段多人对话语音中的说话人身份变动的信息,并确定哪些语音段是由同一个人发出来的。说话人分割聚类技术在多种领域中都有重要作用,如在会议语音中,说话人分割聚类可以将每个人的语音分割出来方便提取目标人语音;在声纹鉴定工作中,送检的检材通常是多人对话,但需要鉴定的往往是其中一人的语音。因此鉴定人员需要将整段音频预检后再选取目标语音进行检验。当音频时间较长时,这一步骤会花费鉴定人员大量精力。说话人分割聚类技术可以帮助鉴定人员解决这一问题。最初说话人分割方法是基于短时能量,这种方法的适用前提是在说话人身份转变时有一段寂静期。当有抢话现象或者有背景噪声时,这种方法性能就会急剧下降。目前说话人分割主流的方法是基于距离尺度和基于模型。基于距离尺度常用的方法有贝叶斯信息准则(BIC)、归一化似然比(GLR)和KL2距离等。基于距离尺度方法不需要先验知识,计算量小,但是需要划定门限,鲁棒性较差。基于深度神经网络模型的说话人分割的方法漏检率低,但是计算量较大。说话人聚类方法有自下而上和自上而下两种。目前大多数的说话人聚类系统都采用自下而上的聚类方法,但是这种方法鲁棒性较差;自上而下聚类最开始只有一个类别,每次增加一个类别然后重新计算更新类别,这种方法的类别区分性较差。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音会话分割方法,以期在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音会话分割方法的特点按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,tT)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为其中,表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111245978.0/2.html,转载请声明来源钻瓜专利网。