[发明专利]一种音频数据的处理方法、设备和系统在审

申请号：	202011027427.2	申请日：	2020-09-25
公开（公告）号：	CN114333853A	公开（公告）日：	2022-04-12
发明（设计）人：	张鹏	申请（专利权）人：	华为技术有限公司
主分类号：	G10L17/22	分类号：	G10L17/22;G06V40/10;G06V40/16;G10L15/22;G10L15/24;G10L15/25;G10L15/26;H04N7/15
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	李杭
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频数据处理方法设备系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种音频数据的处理方法、设备和系统，用于对会议音频数据按照发言人身份进行分类。本申请实施例具体包括：该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果，其中该附加域信息包括该音频数据对应的声源方位信息，该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系；然后该会议记录处理装置对该音频数据进行语音分段，以获得该音频数据的第一分段音频数据；最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。

技术领域

本申请涉及通信领域，尤其涉及一种音频数据的处理方法、设备和系统。

背景技术

随着视频会议技术的飞速发展，类似于普通会议开会过程中人工产生会议记录，在多点视频会议中，也同样存在会议纪要的需求。现有产品已经可以实现在视频会议过程中自动记录整个会议的音视频、数据等内容，如果只是对音频数据单纯的记录下来，当对会议的重点内容或者特定内容进行回顾时，就无法达到普通会议那种可以按发言人进行分类的会议纪要整理需求。

在视频会议进行中，如果可以确定整个语音文件只有一个人在讲话，就可以直接将整个文件的音频数据发送至声纹识别系统进行识别。如果语音文件中有多个人的语音，则需要先对语音文件进行分段，然后对每段音频数据分别进行声纹识别。现有的声纹识别系统，通常需要10秒以上的音频数据，数据越长，准确度越高。因此，在对音频数据进行分段时，段不能太短。由于在视频会议中，自由交谈的场景较多，因此当对音频数据的分段较长时，一段语音可能包含多个人的语音，在将这多个人的音频数据段送到声纹识别系统进行识别时，识别结果将是不可靠的。

而实现上述方案的前提是会议参与人需要在声纹识别系统进行声纹注册，但是声音采集时的信道对声纹特征影响较大，预先注册声纹时一般采用单一信道，而识别时的信道多种多样，难以保证不同声音信道采集的声音的声纹识别准确性。

发明内容

本申请实施例提供了一种音频数据的处理方法、设备和系统，用于对会议音频数据实现精确分类。

第一方面，本申请实施例提供一种音频数据的处理方法，其具体包括：该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果，该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系；然后该会议记录处理装置对该音频数据进行语音分段，以获得该音频数据的第一分段音频数据；最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。

本实施例中，该音频数据和该音频数据对应声源方位信息可以打包生成音频码流，然后该音频码流包含该音频数据的附加域信息，该附加域信息包括该音频数据对应的声源方位信息。该音频数据的处理方法可以应用于本地会议或远程会议场景下，其中，参与会议的会场可以包括至少一个。基于上述方案，该附加域信息中还可以包括该音频数据的时间信息以及该第一会场的会场标识信息其他信息。人像识别方法包括人脸识别以及对于人体属性识别。比如通过人脸识别得到面部特征对应的发言人，而人体属性识别包括对于用户整体衣着或者身体特征进行识别得到身体特征或用户衣着外观对应的发言人。该发言人身份信息可以为用户身份标识信息(比如发言人在公司内的工号或者发言人在公司内部数据库已登记的身份证号码或者电话号码)或者用户身体属性标识信息(比如当前会议中该用户上衣穿着白色衣服，下身为黑色长裤或者该用户的手臂上有个明显的记号等等)。而该发言时间信息可以是一段时间或者两个时间点。比如该发言时间信息为当前会议开始后的00：00：15至00：00：45这一段30秒时间；或者该发言时间信息仅包括“00：00：15”和“00：00：45”这两个时间点。可以理解的是，本申请实施例中，该“00：00：00”形式指示的计时规则为“时：分：秒”，即“00：00：15”指示的时间点为会议开始之后的第15秒。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011027427.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种音频数据的处理方法、设备和系统在审

专利文献下载