[发明专利]一种歌曲视频中人声区域定位的方法及终端有效
申请号: | 201711328085.6 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108235115B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 王子亮;蔡智力;陈彪;邹应双;徐继芸;林哲明 | 申请(专利权)人: | 福州星网视易信息系统有限公司 |
主分类号: | H04N21/44 | 分类号: | H04N21/44;H04N21/488;H04N21/431;G06K9/32;G06K9/34 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 林志峥 |
地址: | 350002 福建省福州市仓山区*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 歌曲 视频 人声 区域 定位 方法 终端 | ||
本发明提供了一种歌曲视频中人声区域定位的方法及终端,获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;在所述字幕区域识别字幕前进的位置;根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,不会受到伴奏的干扰,准确度高,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好。
技术领域
本发明涉及视听控制技术领域,尤其涉及一种歌曲视频中人声区域定位的方法及终端。
背景技术
为了引导不擅长唱歌的用户学唱歌,K歌系统需要一套自动教唱的方法,在进行自动教唱时,首要问题是如何自动识别出歌曲视频中人声演唱的区域,继而播放原唱或伴奏,以便用户跟唱。为了识别出歌曲视频中演唱的区域,现有技术采用的是音频人声识别的方法,即通过识别人声来判断是否是属于演唱的区域,但是音频人声识别的方法容易受到歌曲中伴奏的干扰,无法准确地定位出歌曲视频中人声演唱的区域。
发明内容
本发明所要解决的技术问题是:提出一种歌曲视频中人声区域定位的方法及终端,能够准确地定位出歌曲视频中演唱的区域。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州星网视易信息系统有限公司,未经福州星网视易信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711328085.6/2.html,转载请声明来源钻瓜专利网。