[发明专利]一种长语音标注装置及方法有效
申请号: | 201911018547.3 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110738986B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 王丽媛;齐红威;王大亮;张云斌;何鸿凌 | 申请(专利权)人: | 数据堂(北京)智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L25/24;G10L25/30;G10L25/78;G10L25/87 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 林哲生 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 标注 装置 方法 | ||
1.一种长语音标注装置,其特征在于,用于在训练阶段及预测阶段标定长语音中的有效语音段落;
所述装置包括预处理单元、特征提取单元和标注单元;
其中,所述预处理单元用于:对输入的长语音进行预处理,得到多个语音信号;所述语音信号包含至少多帧语音帧;所述预处理包括等时长截断和预加重;
所述特征提取单元用于:对所述语音信号进行特征提取,得到语音帧特征;
所述标注单元包括:初始标注网络子单元、标注修正网络子单元和标注决策子单元;其中:
所述初始标注网络子单元用于:根据所述语音帧特征对所述语音信号中的语音帧进行标注,得到每一语音帧的初始标注结果,具体包括:计算第一自动识别类别对应的第一识别概率P1(valid),以及第二自动识别类别对应的第二识别概率P1(invalid);所述第一自动识别类别为有效语音帧,所述第二自动识别类别为无效语音帧;所述初始标注结果包括所述第一识别概率和所述第二识别概率;所述第一识别概率和所述第二识别概率中的较大值所对应的自动识别类别为自动标注结果;
所述标注修正网络子单元用于:根据所述初始标注结果与所述语音帧特征,得到与所述语音帧的初始标注结果相对应的修正类型,具体包括:计算相应的语音帧的自动标注结果为有效语音帧,人工标注其为有效语音帧的第一类概率P2(valid2valid);计算相应的语音帧的自动标注结果为有效语音帧,人工标注其为无效语音帧的第二类概率P2(valid2invalid);计算相应的语音帧的自动标注结果为无效语音帧,人工标注其为有效语音帧的第三类概率P2(invalid2valid);计算相应的语音帧的自动标注结果为无效语音帧,人工标注其为无效语音帧的第四类概率P2(invalid2invalid);
所述标注决策子单元用于:至少根据所述初始标注结果与所述修正类型,决策得到每一语音帧的最终标注结果;其中,所述最终标注结果用于表征相应的语音帧为有效语音帧或无效语音帧;有效语音段落包括连续多个有效语音帧。
2.如权利要求1所述的装置,其特征在于,
所述预处理单元输出的多个语音信号中的任一语音信号为目标语音信号;所述目标语音信号中每一语音帧对应的初始标注结果为目标初始标注结果;
所述装置还包括标注结果检测单元和人工施教单元;
在所述训练阶段中:
所述标注结果检测单元用于:在人机交互界面展现所述目标语音信号中所有语音帧的最终标注结果,并接收第一指令或第二指令;所述第一指令用于指示输出所述目标语音信号中所有语音帧的最终标注结果,所述第二指令用于指示执行一次人工施教交互;
在一次人工施教交互中,所述人工施教单元用于:
接收对目标语音片段的人工修正结果;所述目标语音片段为人工在所述目标语音信号中选定的语音片段;所述目标语音片段包括至少一个语音帧;
根据所述人工修正结果,生成与所述目标语音片段中每一语音帧相对应的修正类型标签;其中,所述修正类型标签包括相应语音帧的修正类型;
向所述标注修正网络子单元返回所述修正类型标签;
在一次人工施教交互中,所述标注修正网络子单元用于:
根据所述目标初始标注结果、所述修正类型标签和所述目标语音信号对应的语音帧特征,重新生成与所述目标初始标注结果相对应的修正类型,并输出至所述标注决策子单元,由标注决策子单元重新决策得到所述目标语音信号中所有语音帧的最终标注结果,并输出至所述标注结果检测单元。
3.如权利要求2所述的装置,其特征在于,还包括:
交互控制子单元,用于:
在本次人工施教交互完成后或接收到所述人工修正结果后,计算交互密度;
若所述交互密度超过预设阈值,禁止执行人工施教交互。
4.如权利要求3所述的装置,其特征在于,在所述计算交互密度的方面,所述交互控制子单元具体用于:
记录针对所述目标语音片段所执行的人工施教交互的总次数;
使用所述总次数除以所述目标语音片段的时长,得到所述交互密度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据堂(北京)智能科技有限公司,未经数据堂(北京)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911018547.3/1.html,转载请声明来源钻瓜专利网。