[发明专利]歌词识别方法、装置、电子设备及可读存储介质在审
申请号: | 202111465773.3 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114141250A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 洛晋申;张培熙;党正军 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/14;G10L15/16 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孙翠贤;孟维娜 |
地址: | 510655 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌词 识别 方法 装置 电子设备 可读 存储 介质 | ||
本发明实施例提供了一种歌词识别方法、装置、电子设备及可读存储介质,该方法包括:获取待识别歌词的目标音频;从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;对所述待分析音频片段进行语音识别,得到识别结果;基于所得到的识别结果,生成所述目标音频的歌词内容。本方案中,通过选取目标音频中唱歌类型的待分析音频片段后,再对待分析音频片段进行语音识别,从而基于识别结果生成歌词内容,这样可以大大降低唱歌类型以外的音频内容的干扰,因此,通过本方案能够提高歌词识别的准确率。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种歌词识别方法、装置、电子设备及可读存储介质。
背景技术
随着语音识别技术的发展,对歌曲中的歌词进行识别,也成为一种识别需求,受到用户的欢迎。
相关技术中,采用通常的语音识别方法,对歌曲的整个音频数据来进行语音识别,例如:基于隐马尔可夫的语音识别方法来识别歌词。
但是,歌曲中存在一些干扰内容,例如:无歌词、无人声的无意义片段,这样,导致在利用相关技术进行歌词识别时,歌词识别的准确率较低。
发明内容
本发明实施例的目的在于提供一种歌词识别方法、装置、电子设备及可读存储介质,以提高歌词识别的准确率。具体技术方案如下:
第一方面,本发明实施例提供了一种歌词识别方法,所述方法包括:
获取待识别歌词的目标音频;
从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
对所述待分析音频片段进行语音识别,得到识别结果;
基于所得到的识别结果,生成所述目标音频的歌词内容。
可选地,从所述目标音频中,选取待分析音频片段,包括:
从所述目标音频中,提取多个音频片段;其中,所述多个音频片段的片段内容覆盖所述目标音频的音频内容;
对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果;其中,所述音频类型识别所针对的音频类型包括唱歌类型;
确定所对应识别结果为唱歌类型的音频片段,作为待分析音频片段。
可选地,所述对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果,包括:
针对每一音频片段,将该音频片段的音频数据输入预先训练的分类模型,得到该音频片段对应的识别结果;
其中,所述分类模型为预先基于样本音频和类型标签所训练的分类模型,所述类型标签包括唱歌类型。
可选地,所述从所述目标音频中,提取多个音频片段,包括:
采用滑动窗口,从所述目标音频中依此选取具有指定长度的各个音频片段,其中,所述指定长度为滑动窗口的窗口大小。
可选地,所述滑动窗口的滑动步长小于所述窗口大小。
可选地,所述待分析音频片段的数量为多个;
所述对所述待分析音频片段进行语音识别,得到识别结果,包括:
若多个待分析音频片段中,存在符合预定整合条件的各个目标片段,则获取各个目标片段对应的整合片段,其中,所述预定整合条件包括:音频时间连续且相邻片段存在重叠的音频时间;所述整合片段为所述目标音频中以第一时间点为起始时间点,以第二时间点为终止时间点的音频片段,所述第一时间点为各个目标片段的起始时间点的最小值,所述第二时间点为各个目标片段的终止时间点的最大值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111465773.3/2.html,转载请声明来源钻瓜专利网。