[发明专利]一种近场语料采集方法及装置在审
申请号: | 201910156714.4 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109902199A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 丁伟;曾敏;谢世波 | 申请(专利权)人: | 深圳市伟文无线通讯技术有限公司 |
主分类号: | G06F16/60 | 分类号: | G06F16/60;G06F16/635;G10L15/22 |
代理公司: | 深圳市深科信知识产权代理事务所(普通合伙) 44422 | 代理人: | 刘昌刚 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 采集 语音程序 近场 语音 语音识别技术 语音转化 预定格式 预设格式 自动转化 上传 服务器 审核 | ||
本发明涉及语音识别技术领域,公开了一种近场语料采集方法及装置,该方法包括:获取采集任务;通过语音程序采集所述采集任务所需的语音;将所述语音上传至服务器,并将所述语音转化为预设格式的语料文件;通过微信等语音程序,能够迅速采集大量语料,并自动转化为预定格式的语料文件,进而便于自动审核,提高了语料采集时间和质量,提高了语料采集效率。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种近场语料采集方法及装置。
背景技术
目前,语音识别的语料采集方法五花八门,采集使用的设备也是多种多样,由于说话的随意性以及声音的大小不同,采集到的语料质量得不到保障。
语音识别的结果的好坏很大程度上依赖于语料的质量,在语料质量得不到保障的情况下,无论使用什么改进手法都很难再提升识别的效果。
发明内容
本发明的主要目的在于提出一种近场语料采集方法及装置,通过微信等语音程序,能够迅速采集大量语料,并自动转化为预定格式的语料文件,进而便于自动审核,提高了语料采集时间和质量,提高了语料采集效率。
为实现上述目的,本发明提供的一种近场语料采集方法,包括:
获取采集任务;
通过语音程序采集所述采集任务所需的语音;
将所述语音上传至服务器,并将所述语音转化为预设格式的语料文件。
可选地,所述采集任务包括:词条、词条分类和任务控制信息。
可选地,所述通过语音程序采集所述采集任务所需的语音包括:
通过语音程序领取所述采集任务;
读取所述采集任务中的任务控制信息,所述任务控制信息包括语音对象信息和采集数量;
根据所述采集数量采集所述采集任务所需的语音。
可选地,所述将所述语音上传至服务器,并将所述语音转化为预设格式的语料文件之后还包括:
通过第三方在线语音识别平台识别所述语料文件;
根据所述任务控制信息对所述语料文件进行自动审核,若审核通过则将所述语料文件存储至语料库,否则,进行人工审核。
可选地,所述语音对象信息包括口音、年龄段和性别。
作为本发明的另一方面,提供的一种近场语料采集装置,包括:
获取模块,用于获取采集任务;
采集模块,用于通过语音程序采集所述采集任务所需的语音;
转化模块,用于将所述语音上传至服务器,并将所述语音转化为预设格式的语料文件。
可选地,所述采集任务包括:词条、词条分类和任务控制信息。
可选地,所述采集模块包括:
领取单元,用于通过语音程序领取所述采集任务;
读取单元,用于读取所述采集任务中的任务控制信息,所述任务控制信息包括语音对象信息和采集数量;
采集单元,用于根据所述采集数量采集所述采集任务所需的语音。
可选地,还包括:
审核模块,用于通过第三方在线语音识别平台识别所述语料文件;根据所述任务控制信息对所述语料文件进行自动审核,若审核通过则将所述语料文件存储至语料库,否则,进行人工审核。
可选地,所述语音对象信息包括口音、年龄段和性别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市伟文无线通讯技术有限公司,未经深圳市伟文无线通讯技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910156714.4/2.html,转载请声明来源钻瓜专利网。