[发明专利]语音数据标注方法、装置、计算机设备及存储介质在审
申请号: | 201810960792.5 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109192194A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 高伟;陈泽明 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/06;G10L15/28 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音数据 标注 计算机设备 存储介质 结果判定 线上服务 负样本 正样本 语音 积累 应用 | ||
本发明公开了语音数据标注方法、装置、计算机设备及存储介质,其中方法包括:获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。应用本发明所述方案,能够提升标注效率和标注结果的准确性等。
【技术领域】
本发明涉及计算机应用技术,特别涉及语音数据标注方法、装置、计算机设备及存储介质。
【背景技术】
随着人们日常生活水平的提高和科技的日新月异,人们希望通过更自然的方式进行人机对话,获取信息和服务,因此对语音这种交互方式的识别准确率的要求也越来越高。
相应地,就需要有识别准确的语音识别模型,而语音识别模型的训练、优化、评估等工作,均依赖大量标注准确的语音数据。
目前,语音标注主要采用人工标注方式,这种方式在实际应用中至少存在以下问题:效率低下:语音标注工作,当前基本靠人耳听、手工记录等方式进行,一个人标注几个小时的高准确率语音数据,已经算是超高水平产出,而实际需要的往往是数万小时的语音数据;准确性不足:人工标注工作重复单调,长期从事该工作的人很容易产生疲劳感,从而导致标注错误。
【发明内容】
有鉴于此,本发明提供了语音数据标注方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种语音数据标注方法,包括:
获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;
按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。
一种语音数据标注装置,包括:获取单元以及标注单元;
所述获取单元,用于获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;
所述标注单元,用于按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,本发明所述方案中可针对线上服务积累的语音数据,自动地将其标注为正样本和负样本,从而克服了人工标注所存在的问题,提升了标注效率和标注结果的准确性,并实现了对于线上服务积累的语音数据的有效利用等。
【附图说明】
图1为本发明所述语音数据标注方法实施例的流程图。
图2为本发明所述语音识别效果提升闭环示意图。
图3为本发明所述语音数据标注装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810960792.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别产品测试方法和测试装置
- 下一篇:一种语音识别测试系统及方法