[发明专利]语音数据标注方法、装置、计算机设备及存储介质在审
| 申请号: | 201810960792.5 | 申请日: | 2018-08-22 |
| 公开(公告)号: | CN109192194A | 公开(公告)日: | 2019-01-11 |
| 发明(设计)人: | 高伟;陈泽明 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/06;G10L15/28 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音数据 标注 计算机设备 存储介质 结果判定 线上服务 负样本 正样本 语音 积累 应用 | ||
1.一种语音数据标注方法,其特征在于,包括:
获取线上服务积累的语音数据,每条语音数据中包括:用户的语音及对应的识别结果;
按照预先设定的至少一种判别方式,对语音数据的识别结果的准确性进行判别,标注出识别结果判定为准确的正样本语音数据以及识别结果判定为不准确的负样本语音数据。
2.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:获取负样本语音数据的修正后的识别结果,将修正后的负样本语音数据作为正样本语音数据进行使用。
3.根据权利要求1所述的方法,其特征在于,
所述判别方式包括:基于固定过滤规则的判别方式;
所述基于固定过滤规则的判别方式包括:
针对任一语音数据,若确定所述语音数据的识别结果中包含单个字或词的连续重复,则判定所述语音数据的识别结果不准确;
针对任一语音数据,若确定所述语音数据的语音长度与识别结果长度不匹配,则判定所述语音数据的识别结果不准确;
针对任一语音数据,若确定所述语音数据的识别结果中包含错误码,则判定所述语音数据的识别结果不准确;
针对任一语音数据,若确定所述语音数据的识别结果属于预定的常见错误案例,则判定所述语音数据的识别结果不准确。
4.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:获取用户的线上日志数据;
所述判别方式包括:基于用户行为分析的判别方式;
所述基于用户行为分析的判别方式包括:
针对任一语音数据,若根据所述线上日志数据确定出所述语音数据的识别结果被用户进行了修改,则判定所述语音数据的修改后的识别结果准确;
针对任一语音数据,若根据所述线上日志数据确定出用户针对所述语音数据的识别结果执行了预定的后续动作,则判定所述语音数据的识别结果准确;
针对任一语音数据,若根据所述线上日志数据确定出用户在输入所述语音数据的语音之前的预定时长内至少一次输入过发音相似的语音,则判定所述语音数据的识别结果准确。
5.根据权利要求1所述的方法,其特征在于,
所述判别方式包括:基于语音与文本特征分析的判别方式;
所述基于语音与文本特征分析的判别方式包括:
针对任一语音数据,若确定所述语音数据的语音的信噪比低于预定阈值,则判定所述语音数据的识别结果不准确;
针对任一语音数据,若确定所述语音数据的语音中包含长静音和/或长白噪声,则判定所述语音数据的识别结果不准确;
针对任一语音数据,若确定所述语音数据的识别结果的文法不符合文法要求,则判定所述语音数据的识别结果不准确。
6.根据权利要求1所述的方法,其特征在于,
所述判别方式包括:基于用户口音的判别方式;
所述基于用户口音的判别方式包括:
针对任一语音数据,若确定所述语音数据对应的用户的口音为标准普通话,则判定所述语音数据的识别结果准确。
7.根据权利要求6所述的方法,其特征在于,
该方法进一步包括:若用户的口音为地方方言或带有地域口音的普通话,则通过对用户周边生活人群进行分析以及积累,形成用户的口音对应的语音数据集。
8.根据权利要求1所述的方法,其特征在于,
所述判别方式包括:基于多模型联合的判别方式;
所述基于多模型联合的判别方式包括:
针对任一语音数据,分别利用至少两个语音识别模型对所述语音数据中的语音进行语音识别,并分别将每个语音识别模型的识别结果与所述语音数据的识别结果进行比较,统计识别结果与所述语音数据的识别结果一致的语音识别模型占全部语音识别模型的比例,若所述比例大于或等于预定阈值,则判定所述语音数据的识别结果准确;
其中,所述至少两个语音识别模型属于两种不同的类型,所述类型包括:统计性模型以及神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810960792.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别产品测试方法和测试装置
- 下一篇:一种语音识别测试系统及方法





