[发明专利]基于深度学习的说话人计数方法、装置、设备及存储介质在审
申请号: | 202111023744.1 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113903328A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 陈文明;陈新磊;张洁;张世明 | 申请(专利权)人: | 深圳壹秘科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L25/30;G10L25/51 |
代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 张小容 |
地址: | 518107 广东省深圳市光明区凤凰*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 说话 计数 方法 装置 设备 存储 介质 | ||
本发明涉及深度学习技术领域,公开了一种基于深度学习的说话人计数方法、装置、设备及存储介质,所述方法包括:根据目标区域内多通道的时域语音信号得到对应的幅度谱信息和相位谱信息;根据幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;根据预设卷积递归神经网络模型对特征维度信息进行预测;基于预测得到的语音信号概率分布信息确定目标区域内说话人数量;本发明通过预设卷积递归神经网络模型和特征维度信息得到语音信号概率分布信息,根据语音信号概率分布信息确定目标区域内说话人数量,以实现对目标区域内说话人的计数,相较于现有技术通过传统音频算法实现对说话人的计数,能够有效提高对说话人计数的准确率。
技术领域
本发明涉及深度学习技术领域,尤其涉及基于深度学习的说话人计数方法、装置、设备及存储介质。
背景技术
说话人数量检测是指在一段语音信号内检测其中说话人的数量,它通常位于语音相关系统的预处理阶段,并且在一定程度上影响着后续任务的性能,如语音分离任务、说话人区分任务、声源定位任务等,而实现说话人区分任务、声源定位任务等语音任务是均需要确定一段时间内语音信号中所包含的说话人数量,因此,如何准确高效的统计说话人的数量对于语音相关系统极为重要,而目前常用的说话人数量统计的技术方案是通过智能语音分离产品实现的,但是智能语音分离产品在使用过程中需要用户提前输入说话人数量,但是如果在会议过程中有说话人离开或者增加新的说话人,而一旦说话人的数量和最初告知系统的数量有差别时,通过智能语音分离产品的语音分离功能统计说话人数量的准确率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于深度学习的说话人计数方法、装置、设备及存储介质,旨在解决现有技术无法有效提高对说话人计数的准确率的技术问题。
为实现上述目的,本发明提供了一种基于深度学习的说话人计数方法,所述基于深度学习的说话人计数方法包括以下步骤:
采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息;
根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息;
根据预设卷积递归神经网络模型对所述特征维度信息进行预测,得到语音信号概率分布信息;
基于所述语音信号概率分布信息确定所述目标区域内说话人数量,以实现对所述目标区域内说话人的计数。
可选地,所述采集目标区域内多通道的时域语音信号,根据所述时域语音信号得到对应的幅度谱信息和相位谱信息,包括:
采集目标区域内多通道的时域语音信号;
对所述时域语音信号进行分帧;
对分帧后的时域语音信号进行傅里叶变换;
根据预设采样规则和傅里叶变换后的时域语音信号得到目标频域信息;
根据所述目标频域信息确定对应的幅度谱信息和相位谱信息。
可选地,所述根据所述幅度谱信息、相位谱信息以及预设帧序列长度信息生成对应的特征维度信息,包括:
获取目标采集设备的数量信息;
根据所述数量信息确定所述幅度谱信息的通道占据信息;
根据所述数量信息确定所述相位谱信息的通道占据信息;
获取预设连续帧序列信息,根据所述预设连续帧序列信息得到预设帧序列长度信息;
基于所述幅度谱信息的通道占据信息、所述相位谱信息的通道占据信息以及所述预设帧序列长度信息生成对应的特征维度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹秘科技有限公司,未经深圳壹秘科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111023744.1/2.html,转载请声明来源钻瓜专利网。