[发明专利]一种歌曲视频中人声区域定位的方法及终端有效
申请号: | 201711328085.6 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108235115B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 王子亮;蔡智力;陈彪;邹应双;徐继芸;林哲明 | 申请(专利权)人: | 福州星网视易信息系统有限公司 |
主分类号: | H04N21/44 | 分类号: | H04N21/44;H04N21/488;H04N21/431;G06K9/32;G06K9/34 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 林志峥 |
地址: | 350002 福建省福州市仓山区*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 歌曲 视频 人声 区域 定位 方法 终端 | ||
1.一种歌曲视频中人声区域定位的方法,其特征在于,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;
所述步骤S2具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
2.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述步骤S1中确定所述视频帧图像的字幕区域具体包括:
使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。
3.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像具体包括:
将所述字幕区域所在的图像转换成灰度图;
对所述灰度图进行二值化;
对二值化后的图像做闭运算得到掩膜;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像。
4.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色具体为:
在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色。
5.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述步骤S3具体包括:
如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州星网视易信息系统有限公司,未经福州星网视易信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711328085.6/1.html,转载请声明来源钻瓜专利网。