[发明专利]用于切割音频文件的方法及其相关产品在审
申请号: | 202210369998.7 | 申请日: | 2022-04-08 |
公开(公告)号: | CN114694657A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王艳;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/16;H04N21/8547;H04N21/488;H04N21/43 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 杜丹丹;陈姗姗 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 切割 音频文件 方法 及其 相关 产品 | ||
1.一种用于切割音频文件的方法,其特征在于,包括:
获取与所述音频文件时序相关的字幕文本;
对所述字幕文本进行可视化展示;以及
响应于对所展示的所述字幕文本的切割操作,同步对所述字幕文本和所述音频文件进行切割以生成多个新文件。
2.根据权利要求1所述的方法,其特征在于,获取与所述音频文件时序相关的字幕文本包括:
获取所述音频文件的语音识别文本;以及
基于所述语音识别文本,生成与所述音频文件时间戳相匹配的字幕文本。
3.根据权利要求2所述的方法,其特征在于,基于所述语音识别文本,生成与所述音频文件时间戳相匹配的字幕文本包括:
对所述语音识别文本进行可视化增强处理;以及
基于处理后的语音识别文本,生成与所述音频文件时间戳相匹配的字幕文本。
4.根据权利要求3所述的方法,其特征在于,对所述语音识别文本进行可视化增强处理包括:
获取所述音频文件的原始字幕文本;
结合所述原始字幕文本,对所述语音识别文本进行可视化增强处理,其中所述可视化增强处理至少包括断句处理。
5.根据权利要求2至4中任一项所述的方法,其特征在于,其中所述切割操作包括对所述字幕文本进行至少一次打标操作,针对每次打标操作,同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括:
确定所述打标操作在所述字幕文本中打标位置处的时间戳;
对所述音频文件中具有相同所述时间戳的音频进行打标;以及
对经打标的所述字幕文本和所述音频文件进行切割处理以生成多个新文件,其中所生成的多个新文件中的每个音频文件与各自的字幕文本相对应。
6.根据权利要求2至4所述的方法,其特征在于,其中所述切割操作还包括依据段落标记对所述字幕文本进行的至少一次切割操作,针对每次切割操作,同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括:
记录所述段落标记处的时间戳;
展示基于所述段落标记对所述字幕文本的切割结果;
响应于用户对所述切割结果的确定,生成关于所述字幕文本的新文件;以及
对所述音频文件中具有所述段落标记处的时间戳的音频进行同步切割,以生成关于所述音频文件的新文件,其中关于所述字幕文本的新文件和关于所述音频文本的新文件是依据所述段落标记命名的。
7.根据权利要求5所述的方法,其特征在于,对所述字幕文本进行可视化展示包括:
以单行短句形式对所述字幕文本进行展示。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在切割所述字幕文本和所述音频文件过程中,支持同步播放所述音频文件,以基于播放的所述音频文件对所述字幕文本和时间戳进行校准。
9.一种设备,其特征在于,包括:
处理器;以及
存储器,其存储用于切割音频文件的计算机指令,当所述计算机指令由所述处理器运行时,使得所述设备执行根据权利要求1-8的任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包含用于切割音频文件的程序指令,当所述程序指令由处理器执行时,使得实现根据权利要求1-8的任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210369998.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车用旋钮式开关
- 下一篇:一种带泄水孔的预制块