[发明专利]自动语音识别技术的清洗方法、装置以及电子设备在审
申请号: | 202210267032.2 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114627875A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 朱彦浩;胡郡郡;唐大闰 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F16/33;G06F16/783;G06F40/20 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 沈园园 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 语音 识别 技术 清洗 方法 装置 以及 电子设备 | ||
本发明公开了一种自动语音识别技术的清洗方法、装置以及电子设备。该方法包括:将待测试视频进行切分,得到多段第一时长的目标视频段;将目标视频段通过自动语音技术识别技术得到对应的目标文本;将目标视频段和对应的目标文本发送至已训练的网络结构模型中,由网络结构模型对目标文本内的字符进行打分,得到字符的得分;当字符的得分大于或等于阈值的情况下,保留目标文本中的字符;当字符的得分小于阈值的情况下,从目标文本中删除字符。本发明解决了在多模态视频中的自动语音识别技术结果包含部分视频的背景音乐歌词和人声混合的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种自动语音识别技术的清洗方法、装置、存储介质以及电子设备。
背景技术
自动语音识别技术(Automatic Speech Recognition ASR),是将视频中的人的语音信息自动转为文本的技术手段。ASR目前被广泛的应用于即时通信(如微信语音转文字),搜索引擎,车机系统,智能家居等方面。现有技术中,ASR可以用于视频的的分类上,能够快速的知道这个视频的大概内容,不再需要人力去浏览一遍视频,大大的节省了工作的时间。还可以在视频的段的分割上,根据背景人声音的内容不同,以不同的视频内容进行有效的分段。对于多媒体视频的ASR的结果解析上,如果识别错误,那么无法进行二次的矫正。很多情况下,多媒体的视频背景声音中,不但有人物说话的声音,还有一部分的音乐,歌词也可能会被混合在一起,为ASR的识别结果,但这部分结果其实并不是想要的内容,需要进行清洗。
发明内容
本发明实施例提供了一种自动语音识别技术的清洗方法、装置以及电子设备,以至少解决在多模态视频中的自动语音识别技术结果包含部分视频的背景音乐歌词和人声混合的技术问题。
根据本发明实施例的一个方面,提供了一种自动语音识别技术的清洗方法,包括:将待测试视频进行切分,得到多段第一时长的目标视频段;将上述目标视频段通过自动语音技术识别技术得到对应的目标文本;将上述目标视频段和对应的目标文本发送至已训练的网络结构模型中,由上述网络结构模型对上述目标文本内的字符进行打分,得到上述字符的得分;当上述字符的得分大于或等于阈值的情况下,保留上述目标文本中的上述字符;当上述字符的得分小于阈值的情况下,从上述目标文本中删除上述字符。
根据本发明实施例的另一方面,提供了一种自动语音识别技术的清洗装置,包括:切分模块,用于将待测试视频进行切分,得到多段第一时长的目标视频段;第一处理模块,用于将上述目标视频段通过自动语音技术识别技术得到对应的目标文本;发送模块,用于将上述目标视频段和对应的目标文本发送至已训练的网络结构模型中,由上述网络结构模型对上述目标文本内的字符进行打分,得到上述字符的得分;第二处理模块,用于当上述字符的得分大于或等于阈值的情况下,保留上述目标文本中的上述字符;第三处理模块,用于当上述字符的得分小于阈值的情况下,从上述目标文本中删除上述字符。
作为一种可选的示例,上述装置还包括:获取模块,用于在将所述目标视频段和对应的目标文本发送至已训练的网络结构模型中之前,获取第一视频和第二视频;确定模块,用于根据上述第一视频和上述第二视频确定正样本和负样本;第四处理模块,用于使用上述正样本和上述负样本训练网络结构模型,得到已训练的上述网络结构模型。
作为一种可选的示例,上述确定模块包括:提取单元,用于从上述第一视频中提取出多段第一时长的第一视频段,从上述第二视频中提取出多段上述第一时长的第二视频段;识别单元,用于识别上述第一视频段的语音信息,得到上述第一视频段的第一文本,识别上述第二视频段的语音信息,得到上述第二视频段的第二文本;第一处理单元,用于将上述第一视频段和上述第一文本作为上述正样本,将上述第一视频段和上述第二文本作为上述负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210267032.2/2.html,转载请声明来源钻瓜专利网。