[发明专利]基于深度学习的说话人计数方法、装置、设备及存储介质在审

申请号：	202111023744.1	申请日：	2021-09-01
公开（公告）号：	CN113903328A	公开（公告）日：	2022-01-07
发明（设计）人：	陈文明;陈新磊;张洁;张世明	申请（专利权）人：	深圳壹秘科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/16;G10L25/30;G10L25/51
代理公司：	深圳市恒程创新知识产权代理有限公司 44542	代理人：	张小容
地址：	518107 广东省深圳市光明区凤凰***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习说话计数方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及深度学习技术领域，公开了一种基于深度学习的说话人计数方法、装置、设备及存储介质，所述方法包括：根据目标区域内多通道的时域语音信号得到对应的幅度谱信息和相位谱信息；根据幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息；根据预设卷积递归神经网络模型对特征维度信息进行预测；基于预测得到的语音信号概率分布信息确定目标区域内说话人数量；本发明通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信息，根据语音信号概率分布信息确定目标区域内说话人数量，以实现对目标区域内说话人的计数，相较于现有技术通过传统音频算法实现对说话人的计数，能够有效提高对说话人计数的准确率。

技术领域

本发明涉及深度学习技术领域，尤其涉及基于深度学习的说话人计数方法、装置、设备及存储介质。

背景技术

说话人数量检测是指在一段语音信号内检测其中说话人的数量，它通常位于语音相关系统的预处理阶段，并且在一定程度上影响着后续任务的性能，如语音分离任务、说话人区分任务、声源定位任务等，而实现说话人区分任务、声源定位任务等语音任务是均需要确定一段时间内语音信号中所包含的说话人数量，因此，如何准确高效的统计说话人的数量对于语音相关系统极为重要，而目前常用的说话人数量统计的技术方案是通过智能语音分离产品实现的，但是智能语音分离产品在使用过程中需要用户提前输入说话人数量，但是如果在会议过程中有说话人离开或者增加新的说话人，而一旦说话人的数量和最初告知系统的数量有差别时，通过智能语音分离产品的语音分离功能统计说话人数量的准确率较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于深度学习的说话人计数方法、装置、设备及存储介质，旨在解决现有技术无法有效提高对说话人计数的准确率的技术问题。

为实现上述目的，本发明提供了一种基于深度学习的说话人计数方法，所述基于深度学习的说话人计数方法包括以下步骤:

采集目标区域内多通道的时域语音信号，根据所述时域语音信号得到对应的幅度谱信息和相位谱信息；

根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息；

根据预设卷积递归神经网络模型对所述特征维度信息进行预测，得到语音信号概率分布信息；

基于所述语音信号概率分布信息确定所述目标区域内说话人数量，以实现对所述目标区域内说话人的计数。

可选地，所述采集目标区域内多通道的时域语音信号，根据所述时域语音信号得到对应的幅度谱信息和相位谱信息，包括：

采集目标区域内多通道的时域语音信号；

对所述时域语音信号进行分帧；

对分帧后的时域语音信号进行傅里叶变换；