[发明专利]生成字幕文件的方法及装置有效

申请号：	201610186623.1	申请日：	2016-03-29
公开（公告）号：	CN105828101B	公开（公告）日：	2019-03-08
发明（设计）人：	刘鸣;刘健全;伍亮雄	申请（专利权）人：	北京小米移动软件有限公司
主分类号：	H04N21/233	分类号：	H04N21/233;H04N21/439;H04N21/488
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	鞠永善
地址：	100085 北京市海淀区清河***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本公开是关于一种生成字幕文件的方法及装置，属于语音识别技术领域。方法包括：通过获取视频中的音轨；根据该音轨对应在各个时刻的音量将该音轨分割成多个子音轨；对该多个子音轨中的音频进行语音识别，获得该多个子音轨中的音频对应原始语种的第一文本；将该第一文本翻译为目标语种对应的第二文本；根据该第二文本以及该多个子音轨各自对应的播放时间段生成该音轨对应的字幕文件，无需人工听译，而是通过终端或者服务器等装置自动完成读取视频中音轨、语音识别音轨、将语音识别后得到的文本翻译成字幕文件中所需的文本等步骤，达到自动快速将非母语视频中的音轨翻译成母语字幕，简化字幕制作的人工翻译步骤，缩短字幕制作周期的效果。
搜索关键词：	生成字幕文件方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种生成字幕文件的方法，其特征在于，所述方法包括：获取视频中预设时间长度的音轨；根据所述音轨对应在各个时刻的音量将所述音轨分割成多个子音轨，所述多个子音轨对应各自的播放时间段；对所述多个子音轨中的音频进行语音识别，获得所述多个子音轨中的音频对应原始语种的第一文本，所述原始语种是所述音频中的语音的语种；将所述第一文本翻译为目标语种对应的第二文本；根据所述第二文本以及所述多个子音轨各自对应的播放时间段生成所述音轨对应的字幕文件；其中，所述根据所述音轨对应在各个时刻的音量将所述音轨分割成多个子音轨，包括：在所述音轨对应的播放时间段内，每隔单位时间确定一个采样时间点；获取所述音轨在所述采样时间点处的音量值；检测所述音量值是否小于预设的音量阈值，若所述音量值小于所述音量阈值，则将所述采样时间点确定为分割点；根据确定的所述分割点将所述音轨分割成所述多个子音轨；当所述音轨的结束时间点处的音量值不小于所述音量阈值时，从所述多个子音轨的结束时间点开始每隔所述单位时间确定一个采样时间点；每当新确定一个采样时间点后，判断所述视频的音轨在所述新确定的采样时间点处的音量值是否小于所述音量阈值；若判断结果为所述视频的音轨在所述新确定的采样时间点处的音量值小于所述音量阈值，则将新确定的所述采样时间点确定为所述多个子音轨中的最后一个子音轨的结束时间点，并将新确定的所述采样时间点确定为下一次获取音轨的起始时间点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司，未经北京小米移动软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610186623.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于分布式环境的视频转码系统及视频转码方法
下一篇：一种图像处理方法、远程被控设备及虚拟现实系统

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生成字幕文件的方法及装置有效

专利文献下载