[发明专利]音频播放方法、装置、设备和存储介质在审

申请号：	202210912801.X	申请日：	2022-07-31
公开（公告）号：	CN115359156A	公开（公告）日：	2022-11-18
发明（设计）人：	杨昭;许剑峰	申请（专利权）人：	荣耀终端有限公司
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40;G06T19/20;G06V20/40;G06V40/16;G06N3/04;G06N3/08;G10L25/30;H04W4/80
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	李红艳
地址：	518040 广东省深圳市福田区香蜜湖街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频播放方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频播放方法，其特征在于，所述方法包括：

在音频播放过程中获取当前播放的音频帧的音频特征；

根据所述音频特征获取人脸表情数据，所述人脸表情数据用于体现对所述音频特征所属的音频内容的理解；

根据所述人脸表情数据对预设人像模型的人脸表情进行调整；

在播放所述音频帧的过程中显示所述预设人像模型的人脸图像。

2.如权利要求1所述的方法，其特征在于，所述根据所述音频特征获取人脸表情数据，包括：

将所述音频特征输入第一音频表情模型，由所述第一音频表情模型输出所述人脸表情数据，所述第一音频表情模型用于确定在聆听各种音频特征所属的音频内容时会出现的人脸表情。

3.如权利要求1所述的方法，其特征在于，所述音频特征包括多个子特征数据，所述根据所述音频特征获取人脸表情数据，包括：

将所述音频特征中的多个子特征数据中每个子特征数据与对应的权重相乘，得到目标音频特征；

将所述目标音频特征输入第二音频表情模型，由所述第二音频表情模型输出所述人脸表情数据，所述第二音频表情模型用于确定在聆听各种目标音频特征所属的音频内容时会出现的人脸表情。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

获取多个样本音频帧和多个视频帧，所述多个样本音频帧与所述多个视频帧一一对应，所述多个视频帧中的每个视频帧包含有专业音乐人在聆听对应的一个样本音频帧时的人脸图像；

对于所述多个样本音频帧中任意的一个样本音频帧，对所述一个样本音频帧进行特征提取，得到所述一个样本音频帧的音频特征，将所述一个样本音频帧的音频特征包括的多个子特征数据中的每个子特征数据与对应的权重相乘，得到所述一个样本音频帧的目标音频特征；对所述一个样本音频帧对应的一个视频帧进行人脸表情识别，得到初始人脸表情数据，根据所述专业音乐人的人像模型的人脸关键点与标准人像模型的人脸关键点之间的映射关系，将所述初始人脸表情数据映射为所述标准人像模型的标准人脸表情数据；将所述一个样本音频帧的目标音频特征作为一个训练样本中的输入数据，将所述一个样本音频帧对应的视频帧中的初始人脸表情数据映射至的标准人脸表情数据作为所述一个训练样本中的样本标记，以得到所述一个训练样本；

使用所述训练样本对神经网络模型进行训练，得到所述第二音频表情模型。

5.如权利要求1-4任一所述的方法，其特征在于，所述在音频播放过程中获取当前播放的音频帧的音频特征之前，还包括：

从设置的一个或多个人像模型中随机选择一个人像模型作为所述预设人像模型；

或者，

若接收到针对设置的一个或多个人像模型中的一个人像模型的选择指令，则将所述选择指令所选择的人像模型确定为所述预设人像模型；

或者，

若接收到图像导入指令，则构建所述图像导入指令携带的图像包含的人像的人像模型，将构建出的人像模型确定为所述预设人像模型。

6.如权利要求1-5任一所述的方法，其特征在于，所述人脸表情数据包括多个人脸关键点的位置，所述人脸表情数据是标准人像模型的人脸表情数据，所述根据所述人脸表情数据对预设人像模型的人脸表情进行调整，包括：

根据所述标准人像模型的人脸关键点与所述预设人像模型的人脸关键点之间的映射关系，将所述人脸表情数据映射至所述预设人像模型，得到目标人脸表情数据；

将所述预设人像模型和所述目标人脸表情数据输入表情生成模型，由所述表情生成模型输出具有所述目标人脸表情数据指示的人脸表情的所述预设人像模型。

7.一种音频播放装置，其特征在于，所述装置包括：

第一获取模块，用于在音频播放过程中获取当前播放的音频帧的音频特征；