[发明专利]歌词识别方法、装置、电子设备及可读存储介质在审

申请号：	202111465773.3	申请日：	2021-12-03
公开（公告）号：	CN114141250A	公开（公告）日：	2022-03-04
发明（设计）人：	洛晋申;张培熙;党正军	申请（专利权）人：	广州酷狗计算机科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/14;G10L15/16
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	孙翠贤;孟维娜
地址：	510655 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	歌词识别方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种歌词识别方法，其特征在于，所述方法包括：

获取待识别歌词的目标音频；

从所述目标音频中，选取待分析音频片段；其中，所述待分析音频片段为属于唱歌类型的片段；

对所述待分析音频片段进行语音识别，得到识别结果；

基于所得到的识别结果，生成所述目标音频的歌词内容。

2.根据权利要求1所述的方法，其特征在于，从所述目标音频中，选取待分析音频片段，包括：

从所述目标音频中，提取多个音频片段；其中，所述多个音频片段的片段内容覆盖所述目标音频的音频内容；

对各个音频片段进行音频类型识别，得到各个音频片段对应的识别结果；其中，所述音频类型识别所针对的音频类型包括唱歌类型；

确定所对应识别结果为唱歌类型的音频片段，作为待分析音频片段。

3.根据权利要求2所述的方法，其特征在于，所述对各个音频片段进行音频类型识别，得到各个音频片段对应的识别结果，包括：

针对每一音频片段，将该音频片段的音频数据输入预先训练的分类模型，得到该音频片段对应的识别结果；

其中，所述分类模型为预先基于样本音频和类型标签所训练的分类模型，所述类型标签包括唱歌类型。

4.根据权利要求2所述的方法，其特征在于，所述从所述目标音频中，提取多个音频片段，包括：

采用滑动窗口，从所述目标音频中依此选取具有指定长度的各个音频片段，其中，所述指定长度为滑动窗口的窗口大小。

5.根据权利要求4所述的方法，其特征在于，所述滑动窗口的滑动步长小于所述窗口大小。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述待分析音频片段的数量为多个；

所述对所述待分析音频片段进行语音识别，得到识别结果，包括：

若多个待分析音频片段中，存在符合预定整合条件的各个目标片段，则获取各个目标片段对应的整合片段，其中，所述预定整合条件包括：音频时间连续且相邻片段存在重叠的音频时间；所述整合片段为所述目标音频中以第一时间点为起始时间点，以第二时间点为终止时间点的音频片段，所述第一时间点为各个目标片段的起始时间点的最小值，所述第二时间点为各个目标片段的终止时间点的最大值；

对所述整合片段以及其他待分析音频片段，分别进行语音识别，得到识别结果；其中，其他待分析音频片段为除各个目标片段以外的待分析音频片段。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所得到的识别结果，生成所述目标音频的歌词内容，包括：

对所识别得到的识别结果进行纠错处理；

利用纠错处理后的识别结果，构成所述目标音频的歌词内容。

8.一种歌词识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别歌词的目标音频；

选取模块，用于从所述目标音频中，选取待分析音频片段；其中，所述待分析音频片段为属于唱歌类型的片段；

识别模块，用于对所述待分析音频片段进行语音识别，得到识别结果；

生成模块，用于基于所得到的识别结果，生成所述目标音频的歌词内容。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。