[发明专利]一种语音性别的估计方法、装置、系统及存储介质在审

申请号：	201910539105.7	申请日：	2019-06-20
公开（公告）号：	CN110136726A	公开（公告）日：	2019-08-16
发明（设计）人：	姚灿荣;尤俊生;高志鹏	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/06;G10L17/18;G10L25/18;G10L25/24
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	陈远洋
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音语音数据存储介质估计模型特征提取语音特征估计结果用户体验
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种语音性别的估计方法、装置、系统及存储介质，所述方法包括：获取待识别语音数据；对所述待识别语音数据进行特征提取，得到所述待识别语音数据的语音特征；将所述语音特征输入训练好的语音估计模型，得到所述待识别语音数据的性别估计结果。根据本发明的方法、装置、系统及存储介质，对语音数据进行特征提取后，通过建立的语音性别估计模型进行语音估计，从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计，提升用户体验。

技术领域

本发明涉及语音处理技术领域，更具体地涉及语音性别的估计的处理。

背景技术

随着信息技术的发展和社会安全需求的增加，自动身份验证、人物信息刻画等方面的应用对生物特征识别存在迫切的需求。因此，生物特征识别成为计算机行业研究热点之一。目前主要的生物特征识别包括人脸特征识别、指纹识别、声纹识别、性别识别、年龄估计、种族识别、表情识别，步态识别、轨迹识别等。主要的生物信息载体包括人脸、虹膜、指纹、语音、步态等。个体的生物特征一般具有唯一性，通过辨别一项或者多项个体生物特征信息，就能识别出个体ID。而相同群体之间的个体生物特征信息往往具有很强的相似性和相关性，比如年龄、性别、种族等。

然而，随着社交方式多元化，在许多场景中，并不能采集人像、虹膜等生物图像信息，只有语音等其他信息。语音传播、语音属性及特征分析的研究受到越来越多的关注。面对不同场景和环境带来的噪声，不同年龄、不同语言、甚至不同情绪的差异，说话人的语音辨识复杂度大大增加。目前，语音性别估计方法主要分为基于时间序的方法，而基于时间序列的方法关键在于构建循环神经网络模型，如RNN、LSTM方法，如果背景较为复杂，很难准确估计。

因此，现有技术中存在语音性别估计受到背景噪音和不同语言环境的影响较大，导致语音性别识别精度低，速度不快的问题，影响用户体验。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种语音性别的估计方法、装置、系统及计算机存储介质，对语音数据进行特征提取后，通过建立的语音性别估计模型进行语音估计，从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计。

根据本发明的第一方面，提供了一种语音性别的估计方法，包括：

获取待识别语音数据；

对所述待识别语音数据进行特征提取，得到所述待识别语音数据的语音特征；

将所述语音特征输入训练好的语音估计模型，得到所述待识别语音数据的性别估计结果。

可选地，获取待识别语音数据还包括：对齐和/或预加重所述待识别语音数据。

可选地，对所述待识别语音数据进行特征提取，得到所述待识别语音数据的语音特征，包括：

对所述待识别语音数据进行分帧，并对分帧后的每帧待识别语音数据加汉明窗；

基于加汉明窗后的所述每帧待识别语音数据进行傅里叶变换或快速傅里叶变换或短时傅里叶变换得到向量特征；

将所述向量特征的幅值频谱转换为功率频谱；