[发明专利]语音训练数据生成方法、装置、设备及可读存储介质在审

申请号：	201910342237.0	申请日：	2019-04-26
公开（公告）号：	CN110210299A	公开（公告）日：	2019-09-06
发明（设计）人：	彭捷	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G10L15/22
代理公司：	北京市京大律师事务所 11321	代理人：	刘挽澜
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音训练数据图片帧目标视频文件视频文件图片组可读存储介质音频文件数据采集技术分帧关联图像检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及数据采集技术领域，公开了一种语音训练数据生成方法、装置、设备及可读存储介质。语音训练数据生成方法包括：获取视频文件，并检测所述视频文件是否为目标视频文件；若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；提取每个图片组对应的子音频文件，并将每个图片组分别对应的子音频文件与OCR识别结果关联为一组语音训练数据，得到若干语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

技术领域

本发明涉及数据采集技术领域，尤其涉及语音训练数据生成方法、装置、设备及可读存储介质。

背景技术

近年来，基于深度神经元网络的语音识别技术已经越来越成熟，该技术需要利用大量语音数据训练深度神经元网络从而获取语音识别模型。

而目前普遍采用人工录制以及人工标注的方式，得到用于训练深度神经元网络的语音数据，人工工作量大、语音数据获取周期长，使得训练性能优良的语音识别模型需要付出较高的代价。

发明内容

本发明的主要目的在于提供一种语音训练数据生成方法、装置、设备及可读存储介质，旨在解决现有技术中生成大批量语音训练数据的效率低且成本高的技术问题。

为实现上述目的，本发明提供一种语音训练数据生成方法，所述语音训练数据生成方法包括以下步骤：

获取视频文件，并检测所述视频文件是否为目标视频文件；

若所述视频文件为目标视频文件，则对所述目标视频文件进行图像分帧处理，得到若干图片帧；

对每张图片帧进行OCR识别，得到每张图片帧的OCR识别结果；

将OCR识别结果相同的图片帧归集到同一组，得到若干图片组；