[发明专利]一种近场语料采集方法及装置在审

申请号：	201910156714.4	申请日：	2019-03-01
公开（公告）号：	CN109902199A	公开（公告）日：	2019-06-18
发明（设计）人：	丁伟;曾敏;谢世波	申请（专利权）人：	深圳市伟文无线通讯技术有限公司
主分类号：	G06F16/60	分类号：	G06F16/60;G06F16/635;G10L15/22
代理公司：	深圳市深科信知识产权代理事务所(普通合伙) 44422	代理人：	刘昌刚
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料采集语音程序近场语音语音识别技术语音转化预定格式预设格式自动转化上传服务器审核
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音识别技术领域，公开了一种近场语料采集方法及装置，该方法包括：获取采集任务；通过语音程序采集所述采集任务所需的语音；将所述语音上传至服务器，并将所述语音转化为预设格式的语料文件；通过微信等语音程序，能够迅速采集大量语料，并自动转化为预定格式的语料文件，进而便于自动审核，提高了语料采集时间和质量，提高了语料采集效率。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种近场语料采集方法及装置。

背景技术

目前，语音识别的语料采集方法五花八门，采集使用的设备也是多种多样，由于说话的随意性以及声音的大小不同，采集到的语料质量得不到保障。

语音识别的结果的好坏很大程度上依赖于语料的质量，在语料质量得不到保障的情况下，无论使用什么改进手法都很难再提升识别的效果。

发明内容

本发明的主要目的在于提出一种近场语料采集方法及装置，通过微信等语音程序，能够迅速采集大量语料，并自动转化为预定格式的语料文件，进而便于自动审核，提高了语料采集时间和质量，提高了语料采集效率。

为实现上述目的，本发明提供的一种近场语料采集方法，包括：

获取采集任务；

通过语音程序采集所述采集任务所需的语音；

将所述语音上传至服务器，并将所述语音转化为预设格式的语料文件。

可选地，所述采集任务包括：词条、词条分类和任务控制信息。

可选地，所述通过语音程序采集所述采集任务所需的语音包括：

通过语音程序领取所述采集任务；

读取所述采集任务中的任务控制信息，所述任务控制信息包括语音对象信息和采集数量；

根据所述采集数量采集所述采集任务所需的语音。

可选地，所述将所述语音上传至服务器，并将所述语音转化为预设格式的语料文件之后还包括：

通过第三方在线语音识别平台识别所述语料文件；

根据所述任务控制信息对所述语料文件进行自动审核，若审核通过则将所述语料文件存储至语料库，否则，进行人工审核。

可选地，所述语音对象信息包括口音、年龄段和性别。

作为本发明的另一方面，提供的一种近场语料采集装置，包括：

获取模块，用于获取采集任务；

采集模块，用于通过语音程序采集所述采集任务所需的语音；

转化模块，用于将所述语音上传至服务器，并将所述语音转化为预设格式的语料文件。

可选地，所述采集任务包括：词条、词条分类和任务控制信息。

可选地，所述采集模块包括：

领取单元，用于通过语音程序领取所述采集任务；

读取单元，用于读取所述采集任务中的任务控制信息，所述任务控制信息包括语音对象信息和采集数量；

采集单元，用于根据所述采集数量采集所述采集任务所需的语音。

可选地，还包括：

审核模块，用于通过第三方在线语音识别平台识别所述语料文件；根据所述任务控制信息对所述语料文件进行自动审核，若审核通过则将所述语料文件存储至语料库，否则，进行人工审核。

可选地，所述语音对象信息包括口音、年龄段和性别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市伟文无线通讯技术有限公司，未经深圳市伟文无线通讯技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910156714.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种以图搜图的方法、装置及应用系统
下一篇：一种视频搜索排序的方法、装置及服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种近场语料采集方法及装置在审

专利文献下载