[发明专利]生成字幕文件的方法及装置有效
申请号: | 201610186623.1 | 申请日: | 2016-03-29 |
公开(公告)号: | CN105828101B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 刘鸣;刘健全;伍亮雄 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/439;H04N21/488 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 鞠永善 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开是关于一种生成字幕文件的方法及装置,属于语音识别技术领域。方法包括:通过获取视频中的音轨;根据该音轨对应在各个时刻的音量将该音轨分割成多个子音轨;对该多个子音轨中的音频进行语音识别,获得该多个子音轨中的音频对应原始语种的第一文本;将该第一文本翻译为目标语种对应的第二文本;根据该第二文本以及该多个子音轨各自对应的播放时间段生成该音轨对应的字幕文件,无需人工听译,而是通过终端或者服务器等装置自动完成读取视频中音轨、语音识别音轨、将语音识别后得到的文本翻译成字幕文件中所需的文本等步骤,达到自动快速将非母语视频中的音轨翻译成母语字幕,简化字幕制作的人工翻译步骤,缩短字幕制作周期的效果。 | ||
搜索关键词: | 生成 字幕 文件 方法 装置 | ||
【主权项】:
1.一种生成字幕文件的方法,其特征在于,所述方法包括:获取视频中预设时间长度的音轨;根据所述音轨对应在各个时刻的音量将所述音轨分割成多个子音轨,所述多个子音轨对应各自的播放时间段;对所述多个子音轨中的音频进行语音识别,获得所述多个子音轨中的音频对应原始语种的第一文本,所述原始语种是所述音频中的语音的语种;将所述第一文本翻译为目标语种对应的第二文本;根据所述第二文本以及所述多个子音轨各自对应的播放时间段生成所述音轨对应的字幕文件;其中,所述根据所述音轨对应在各个时刻的音量将所述音轨分割成多个子音轨,包括:在所述音轨对应的播放时间段内,每隔单位时间确定一个采样时间点;获取所述音轨在所述采样时间点处的音量值;检测所述音量值是否小于预设的音量阈值,若所述音量值小于所述音量阈值,则将所述采样时间点确定为分割点;根据确定的所述分割点将所述音轨分割成所述多个子音轨;当所述音轨的结束时间点处的音量值不小于所述音量阈值时,从所述多个子音轨的结束时间点开始每隔所述单位时间确定一个采样时间点;每当新确定一个采样时间点后,判断所述视频的音轨在所述新确定的采样时间点处的音量值是否小于所述音量阈值;若判断结果为所述视频的音轨在所述新确定的采样时间点处的音量值小于所述音量阈值,则将新确定的所述采样时间点确定为所述多个子音轨中的最后一个子音轨的结束时间点,并将新确定的所述采样时间点确定为下一次获取音轨的起始时间点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610186623.1/,转载请声明来源钻瓜专利网。