[发明专利]一种处理直播流的方法和装置在审
申请号: | 201711172649.1 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108063970A | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 洪巨成;项东涛 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | H04N21/43 | 分类号: | H04N21/43;H04N21/434;H04N21/439;H04N21/4402;H04N21/8547 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 直播 方法 装置 | ||
本发明实施例提供了一种处理直播流的方法和装置,方法包括:将原始直播流解码为原始音频数据和原始视频数据;对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。应用本发明实施例能够实现播放带字幕的视频直播。
技术领域
本发明涉及计算机技术领域,特别是涉及一种处理直播流的方法和装置。
背景技术
由于视频直播内容的多样性,越来越多受到用户的喜爱。通常情况下,视频直播不会显示与视频同步的字幕。
在出现视频直播受到音频干扰,或者视频直播中人物的发音不准确或音速过快等导致视频直播的声音不清晰的情况下,用户仅根据声音无法完全理解视频直播的节目内容,影响了用户的观看体验。
发明内容
本发明实施例的目的在于提供一种处理直播流的方法和装置,以实现播放带字幕的视频直播。具体技术方案如下:
在本发明实施的一方面,提供了一种处理直播流的方法,所述方法包括:
将原始直播流解码为原始音频数据和原始视频数据;
对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;
根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;
将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;
将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;
播放所述目标直播流。
可选的,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:
将预设时长的原始直播流解码为原始音频数据和原始视频数据。
可选的,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:
在预设时长区间内的原始直播流中,确定语音停顿的时间点;
将所述原始直播流中所述时间点之前且未解码的直播流片段,解码为原始音频数据和原始视频数据。
可选的,所述根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理的步骤,包括:
确定所述语音识别所耗费的第一时长;
将所述原始视频数据的时间戳,延迟所述第一时长。
可选的,在所述对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符的步骤之后,所述方法还包括:
将所述文本字符翻译成预设的语言种类,生成第二时长,所述第二时长为将所述文本字符翻译成预设的语言种类所耗费的时长;
所述将所述原始视频数据的时间戳,延迟所述第一时长的步骤,包括:
将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长;
所述将所述文本字符添加到延迟后的视频数据中,生成目标视频数据的步骤,包括:
将翻译后的文本字符添加到延迟后的视频数据中,生成目标视频数据。
可选的,在所述将所述文本字符翻译成预设的语言种类的步骤之后,所述方法还包括:
对翻译后的文本字符进行纠错处理;
确定所述纠错处理所耗费的第三时长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711172649.1/2.html,转载请声明来源钻瓜专利网。