[发明专利]一种音频数据的处理方法、设备和系统在审
申请号: | 202011027427.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114333853A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G06V40/10;G06V40/16;G10L15/22;G10L15/24;G10L15/25;G10L15/26;H04N7/15 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 数据 处理 方法 设备 系统 | ||
本申请实施例提供了一种音频数据的处理方法、设备和系统,用于对会议音频数据按照发言人身份进行分类。本申请实施例具体包括:该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果,其中该附加域信息包括该音频数据对应的声源方位信息,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;然后该会议记录处理装置对该音频数据进行语音分段,以获得该音频数据的第一分段音频数据;最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
技术领域
本申请涉及通信领域,尤其涉及一种音频数据的处理方法、设备和系统。
背景技术
随着视频会议技术的飞速发展,类似于普通会议开会过程中人工产生会议记录,在多点视频会议中,也同样存在会议纪要的需求。现有产品已经可以实现在视频会议过程中自动记录整个会议的音视频、数据等内容,如果只是对音频数据单纯的记录下来,当对会议的重点内容或者特定内容进行回顾时,就无法达到普通会议那种可以按发言人进行分类的会议纪要整理需求。
在视频会议进行中,如果可以确定整个语音文件只有一个人在讲话,就可以直接将整个文件的音频数据发送至声纹识别系统进行识别。如果语音文件中有多个人的语音,则需要先对语音文件进行分段,然后对每段音频数据分别进行声纹识别。现有的声纹识别系统,通常需要10秒以上的音频数据,数据越长,准确度越高。因此,在对音频数据进行分段时,段不能太短。由于在视频会议中,自由交谈的场景较多,因此当对音频数据的分段较长时,一段语音可能包含多个人的语音,在将这多个人的音频数据段送到声纹识别系统进行识别时,识别结果将是不可靠的。
而实现上述方案的前提是会议参与人需要在声纹识别系统进行声纹注册,但是声音采集时的信道对声纹特征影响较大,预先注册声纹时一般采用单一信道,而识别时的信道多种多样,难以保证不同声音信道采集的声音的声纹识别准确性。
发明内容
本申请实施例提供了一种音频数据的处理方法、设备和系统,用于对会议音频数据实现精确分类。
第一方面,本申请实施例提供一种音频数据的处理方法,其具体包括:该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;然后该会议记录处理装置对该音频数据进行语音分段,以获得该音频数据的第一分段音频数据;最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
本实施例中,该音频数据和该音频数据对应声源方位信息可以打包生成音频码流,然后该音频码流包含该音频数据的附加域信息,该附加域信息包括该音频数据对应的声源方位信息。该音频数据的处理方法可以应用于本地会议或远程会议场景下,其中,参与会议的会场可以包括至少一个。基于上述方案,该附加域信息中还可以包括该音频数据的时间信息以及该第一会场的会场标识信息其他信息。人像识别方法包括人脸识别以及对于人体属性识别。比如通过人脸识别得到面部特征对应的发言人,而人体属性识别包括对于用户整体衣着或者身体特征进行识别得到身体特征或用户衣着外观对应的发言人。该发言人身份信息可以为用户身份标识信息(比如发言人在公司内的工号或者发言人在公司内部数据库已登记的身份证号码或者电话号码)或者用户身体属性标识信息(比如当前会议中该用户上衣穿着白色衣服,下身为黑色长裤或者该用户的手臂上有个明显的记号等等)。而该发言时间信息可以是一段时间或者两个时间点。比如该发言时间信息为当前会议开始后的00:00:15至00:00:45这一段30秒时间;或者该发言时间信息仅包括“00:00:15”和“00:00:45”这两个时间点。可以理解的是,本申请实施例中,该“00:00:00”形式指示的计时规则为“时:分:秒”,即“00:00:15”指示的时间点为会议开始之后的第15秒。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027427.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:投屏控制方法和装置
- 下一篇:数据处理方法、装置、设备及介质
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置