[发明专利]一种根据音频输出的实时字幕生成方法有效
申请号: | 201610863894.6 | 申请日: | 2016-09-29 |
公开(公告)号: | CN106504754B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 卜佳俊;于智;陈静;王灿;王炜;陈纯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/24 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种根据音频输出的实时字幕生成方法,步骤如下:对于电子设备需要进行输出的音频信息进行如下操作:采用音频采集模块实时监测电子设备输出的音频信息,并将其收集;将收集到的音频信息传入语音提取模块,将音频信息中的背景音乐等无关内容进行过滤并进行降噪处理,得到准确的语音信息;此后将得到的需要转换成文字的语音信息输入到语音识别模块,得到语音对应的文字信息;最后经显示模块将转换后得到的文字利用字幕的形式实时显示在设备屏幕上。本方法的优点在于:可以帮助听障人士获取视频,音频或其他形式中包含的语音内容,为听障人士获取语音信息提供了有效便捷的方式,同时也为普通用户提供了便利。 | ||
搜索关键词: | 一种 根据 音频 输出 实时 字幕 生成 方法 | ||
【主权项】:
1.一种根据音频输出的实时字幕生成方法,该方法的特征在于:步骤1)音频采集;实时监测电子设备输出的音频信息,并将其收集,音频采集具体是对是否有输出的音频信息实时监测,并在监测到后及时将音频信号进行下一步处理;步骤2)语音提取;将收集到的音频信息进行处理,过滤掉音频信息中的背景音乐无关内容并进行降噪处理,得到准确的语音信息,语音提取具体包括:21)将主要根据语音的频段提取音频文件人声声纹信息,供后续的固定人声纹检索;22)用相应的滤波算法对提取的人声声纹信息进行降噪处理,得到更加准确的人声声纹提高识别精度;步骤3)语音识别;得到需要转换成文字的语音信息后,对语音信息进行语音识别,得到语音对应的文字信息,语音识别具体包括:将得到的人声声纹信息输入语音识别模块进行语种识别、特征提取、检索、匹配,并进行上下文语义分析相关处理最后得到准确的相应文字信息;具体是:31)利用预先采录的各语种各方言的云端语料库,采用MFCC技术提取不同语料库独有的语音特征,具体操作为:将音频分解为帧,并对每帧计算周期功率谱;然后在功率谱上利用mel滤波器计算能量和对数值;保留2‑13个对数能量的DCT变换后的系数作为特征;32)对实际采集到的声音信息同样采用MFCC技术提取语音特征,并与语料库特征进行比对,根据相似性确定最相近的语料库;33)将语音信息分解为多个连续片段,在语料库中利用特征相似性,匹配出对应的文字信息;34)将所有文字信息整合后,利用云端中文短语语义库,分析前后连续词出现的语义相关性,并计算与前后词的语音特征近似的词语间语义相关性;若现有词语间语义相关不强,则替换为更高语义想关性的近音词;35)将所有文字汇总整合,生成语义连贯的识别文本结果;步骤4)显示;将转换后得到的文字通过字幕的形式显示在设备屏幕上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610863894.6/,转载请声明来源钻瓜专利网。