[发明专利]语音数据标注方法、装置、计算机设备及存储介质在审

申请号：	201810960792.5	申请日：	2018-08-22
公开（公告）号：	CN109192194A	公开（公告）日：	2019-01-11
发明（设计）人：	高伟;陈泽明	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L15/01	分类号：	G10L15/01;G10L15/06;G10L15/28
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音数据标注计算机设备存储介质结果判定线上服务负样本正样本语音积累应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了语音数据标注方法、装置、计算机设备及存储介质，其中方法包括：获取线上服务积累的语音数据，每条语音数据中包括：用户的语音及对应的识别结果；按照预先设定的至少一种判别方式，对语音数据的识别结果的准确性进行判别，标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。应用本发明所述方案，能够提升标注效率和标注结果的准确性等。

【技术领域】

本发明涉及计算机应用技术，特别涉及语音数据标注方法、装置、计算机设备及存储介质。

【背景技术】

随着人们日常生活水平的提高和科技的日新月异，人们希望通过更自然的方式进行人机对话，获取信息和服务，因此对语音这种交互方式的识别准确率的要求也越来越高。

相应地，就需要有识别准确的语音识别模型，而语音识别模型的训练、优化、评估等工作，均依赖大量标注准确的语音数据。

目前，语音标注主要采用人工标注方式，这种方式在实际应用中至少存在以下问题：效率低下：语音标注工作，当前基本靠人耳听、手工记录等方式进行，一个人标注几个小时的高准确率语音数据，已经算是超高水平产出，而实际需要的往往是数万小时的语音数据；准确性不足：人工标注工作重复单调，长期从事该工作的人很容易产生疲劳感，从而导致标注错误。

【发明内容】

有鉴于此，本发明提供了语音数据标注方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种语音数据标注方法，包括：

获取线上服务积累的语音数据，每条语音数据中包括：用户的语音及对应的识别结果；

按照预先设定的至少一种判别方式，对语音数据的识别结果的准确性进行判别，标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。

一种语音数据标注装置，包括：获取单元以及标注单元；

所述获取单元，用于获取线上服务积累的语音数据，每条语音数据中包括：用户的语音及对应的识别结果；

所述标注单元，用于按照预先设定的至少一种判别方式，对语音数据的识别结果的准确性进行判别，标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，本发明所述方案中可针对线上服务积累的语音数据，自动地将其标注为正样本和负样本，从而克服了人工标注所存在的问题，提升了标注效率和标注结果的准确性，并实现了对于线上服务积累的语音数据的有效利用等。