[发明专利]一种信息处理方法及相关设备在审
申请号: | 202111562845.6 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114242108A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 王武城 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/78;G10H1/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈梅君 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 相关 设备 | ||
本申请实施例公开了一种信息处理方法及相关设备,该方法可利用对齐模型对音频信号和其对应的文本内容进行处理,获得音文时间戳;并利用人声检测模型确定音频信号中人声与非人声之间的跳变点;根据音频信号中人声与非人声之间的跳变点对音文时间戳进行调整,获得调整后的音文时间戳。本申请实施例可以在根据对齐模型得到的音文时间戳的基础上,利用跳变点对音文时间戳进行局部调整,从而能够得到更精确的音文时间戳。
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法及相关设备。
背景技术
自动歌词时间戳是指通过对齐模型,对输入的歌曲音频和对应的文本内容进行处理,得到音频中每个发音在文本内容中对应的字的起始时间和结束时间。然而,该基于对齐模型获得的自动歌词时间戳中,出现人声尾音被截断,或者包括部分无用的静音等情况,因此,如何获得更精确的歌词时间戳是一个亟待解决的问题。
发明内容
本申请实施例提供了一种信息处理方法及相关设备,可以获得更加精确的音文时间戳。
一方面,本申请实施例公开了一种信息处理方法,该方法包括:
利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间;
利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;
根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
在一种可选的实施方式中,该人声检测模型是利用第一梅尔频率倒谱系数MFCC特征和第二MFCC特征训练获得的,所述第一MFCC特征是从人声音频中提取的,所述第二MFCC是从非人声音频中提取的。
在一种可选的实施方式中,所述利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点,包括:
对所述音频信号进行划分,获得N帧音频;
根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述N帧音频中的每一帧属于人声或非人声音频的结果;
根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
在一种可选的实施方式中,根据所述人声检测模型对所述音频信号进行检测,获得检测结果,包括:
针对所述N帧音频中的每帧音频,利用所述人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;
若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值时,确定该帧是人声帧;
若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值时,确定该帧是非人声帧。
在一种可选的实施方式中,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:
根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间。
在一种可选的实施方式中,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:
根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间。
在一种可选的实施方式中,所述利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,包括:
从音频信号中提取第三MFCC特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111562845.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检测仪器信息显示方法、电子设备及可读存储介质
- 下一篇:一种干粉气溶胶发生器