[发明专利]一种信息处理方法及相关设备在审

申请号：	202111562845.6	申请日：	2021-12-20
公开（公告）号：	CN114242108A	公开（公告）日：	2022-03-25
发明（设计）人：	王武城	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/78;G10H1/00
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	陈梅君
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种信息处理方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种信息处理方法及相关设备，该方法可利用对齐模型对音频信号和其对应的文本内容进行处理，获得音文时间戳；并利用人声检测模型确定音频信号中人声与非人声之间的跳变点；根据音频信号中人声与非人声之间的跳变点对音文时间戳进行调整，获得调整后的音文时间戳。本申请实施例可以在根据对齐模型得到的音文时间戳的基础上，利用跳变点对音文时间戳进行局部调整，从而能够得到更精确的音文时间戳。

技术领域

本申请涉及计算机技术领域，尤其涉及一种信息处理方法及相关设备。

背景技术

自动歌词时间戳是指通过对齐模型，对输入的歌曲音频和对应的文本内容进行处理，得到音频中每个发音在文本内容中对应的字的起始时间和结束时间。然而，该基于对齐模型获得的自动歌词时间戳中，出现人声尾音被截断，或者包括部分无用的静音等情况，因此，如何获得更精确的歌词时间戳是一个亟待解决的问题。

发明内容

本申请实施例提供了一种信息处理方法及相关设备，可以获得更加精确的音文时间戳。

一方面，本申请实施例公开了一种信息处理方法，该方法包括：

利用对齐模型对音频信号和对应的文本内容进行处理，获得音文时间戳，所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间；

利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点；

根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整，获得调整后的音文时间戳。

在一种可选的实施方式中，该人声检测模型是利用第一梅尔频率倒谱系数MFCC特征和第二MFCC特征训练获得的，所述第一MFCC特征是从人声音频中提取的，所述第二MFCC是从非人声音频中提取的。

在一种可选的实施方式中，所述利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点，包括：