[发明专利]歌词提取方法、装置、系统及计算机可读存储介质在审
申请号: | 202111529212.5 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114120207A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 马哲;郭传基;刘剑 | 申请(专利权)人: | 北京雷石天地电子技术有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06F16/35 |
代理公司: | 北京城烽知识产权代理事务所(特殊普通合伙) 11829 | 代理人: | 徐超 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌词 提取 方法 装置 系统 计算机 可读 存储 介质 | ||
本发明实施例公开了一种歌词提取方法、装置、系统及计算机可读存储介质。其中该方法包括:按预定时间间隔提取目标视频中的帧作为目标帧;识别当前目标帧的时间戳及当前目标帧的标准文本信息集;将标准文本信息集中的其一标准文本信息分别与当前聚类文本信息集中每个子集中的参照文本信息进行相似度计算,得到每个子集对应的文本相似度;根据文本相似度将标准文本信息集中的标准文本信息与当前聚类文本信息集中每个子集中的文本信息进行聚类,得到聚类完成的头部子集,将头部子集中的最优标准文本信息作为对应时间戳的歌词文本信息。本发明降低了生成歌词的冗余度,且提高了歌词提取效率。
技术领域
本发明涉及数据处理领域,尤其涉及一种歌词提取方法、装置、系统及计算机可读存储介质。
背景技术
在KTV环境中,许多含有字幕的MV视频不存在相应的歌词文本文件。其中,歌词文本文件中包含有演唱顺序的歌词信息。
传统的MV字幕识别方法,通常为对MV每帧进行帧提取,之后逐帧进行文本提取,这样会造成识别后的歌词文本中存在很多重复的歌词。另外,因为每个演唱着演唱一句歌词的时间长度不一致,会造成识别后的相同的歌词文本冗余。
针对现有技术中相同歌词文本信息冗余的问题,目前还没有一个有效的解决方式。
发明内容
为解决上述问题,本发明提供一种歌词提取方法、装置、系统及计算机可读存储介质,间隔提取视频帧,并对提取的视频帧进行文本提取,对提取到的所有文本信息进行文本聚类,得到具有相同文本信息的集合,再从每个集合中提取一个最优标准文本信息作为歌词文本文件中的歌词文本,并通过对应的时间戳得到含有演唱顺序的歌词文本文件。
为达到上述目的,本发明提供了一种歌词提取方法,包括:按预定时间间隔提取目标视频中的帧作为目标帧;识别当前目标帧的时间戳及当前目标帧的标准文本信息集;将所述标准文本信息集中的其一标准文本信息分别与当前聚类文本信息集中每个子集中的参照文本信息进行相似度计算,得到每个子集对应的文本相似度;当所述文本相似度不小于对应子集的第一预设相似度阈值时,将所述标准文本信息添加到所述对应子集中,得到最新聚类文本信息集;当所有所述文本相似度均小于对应子集的第一预设相似度阈值时,将所述标准文本信息作为最新子集的参照文本信息,删除所述当前聚类文本信息集中的头部子集,将所述最新子集添加到所述当前聚类文本信息集尾部,得到最新聚类文本信息集,并将所述头部子集中的最优标准文本信息作为对应时间戳的歌词文本信息
进一步可选的,所述将所述头部子集中的最优标准文本信息作为对应时间戳的歌词文本信息,包括:计算所述头部子集中任两个标准文本信息的文本相似度;将文本相似度大于第二预设相似度阈值的多个标准文本信息组成集合,得到至少一个相同文本信息集;统计所有相同文本信息集中标准文本信息的数量,按标准文本信息的数量将相同文本信息集合降序排列;从排在第一位的相同文本信息集中随机选择任一标准文本信息作为最优标准文本信息。
进一步可选的,该方法包括:若当前目标帧为初始目标帧时,将初始目标帧中的标准文本信息集作为最新聚类文本信息集,其中每个标准文本信息为对应子集的参照文本信息。
进一步可选的,所述识别当前目标帧的时间戳及当前目标帧的标准文本信息集包括:对所述当前目标帧进行二值化;对二值化后的所述当前目标帧进行文字提取,得到包括至少一个标准文本信息的标准文本信息集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京雷石天地电子技术有限公司,未经北京雷石天地电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111529212.5/2.html,转载请声明来源钻瓜专利网。