[发明专利]一种基于智能语音芯片的中文自定义唤醒与物联交互方法在审
申请号: | 202110302440.2 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113178193A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 高楠;陈磊;陈国鑫;程建勋;张意能;张思翼 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/16;G10L15/08;G10L15/18;G10L15/26;G10L15/06 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 语音 芯片 中文 自定义 唤醒 交互 方法 | ||
1.一种基于智能语音芯片的中文自定义唤醒与物联交互方法,包括以下步骤:
步骤1:唤醒语音,包括:
步骤1-1:提取语音特征;从麦克风获取语音信号,把语音信号进行分帧、加窗、傅里叶变换;经过傅里叶变换后再取绝对值或平方值得到的是二维的声谱图(Spectrogram)。Spectrogram再经过Mel滤波器和log运算后后得到Log Mel Spectrogram,也就是FilterBank特征;
步骤1-2:检测唤醒词
选用CNN-CTC声学模型,神经网络的输入X是步骤1-1中得到的二维的特征序列,其中T为时间维度,输出Y是未经对齐的标签,由于时间维度大于输出标签数,因此输出可以存在多条路径对应标签;CTC使用极大似然的思想,对应标签Y,其关于输入X的后验概率可以表示为所有映射为Y的路径之和,CTC的目标就是最大化后验概率,即
路径数量与时间长度T呈指数型关系,CTC使用动态规划思想对查找路径剪枝;预测过程和训练过程相似,计算上述后验概率P(Y=唤醒词|X=特征序列),根据这个概率判断是否唤醒;
步骤2:识别离线语音;包括:
步骤2-1:运用CNN-CTC声学模型,将输入的语音转换为拼音;声学模型与步骤1-2中的模型类似;对比语音唤醒的声学模型,使用拼音作为建模单位,且使用二维卷积和二维池化层取代一维卷积核一维池化层;网络的输出的shape为200x1424;本实验使用集束宽度为10的集束搜索算法,找最高的若干个概率作为下一次的输入,依次迭代;
步骤2-2:运用Transformer语言模型;
Transformer语言模型的输入是CNN-CTC声学模型得到的拼音,输出是拼音转化成的文字;Transformer的结构包含左边一个encoder和右边一个decoder,这里作为一个序列解码模型,只需要用到左边的encoder部分;Transformer encoder由若干个Transformer block堆叠而成,每一个block由两个sub layers构成,第一个sub layer是Multi-headAttention多头自注意力结构,另一个sub layer是一个Position-wise Feed Forward网络,两个sub layer都使用了残差结构和Layer Normalization;
基于Transformer的拼音解码模型在Transformer encoder的最后连接一个全连接层,并使用Softmax进行多分类;
步骤3:意图识别和槽填充,使用基于BERT的联合意图识别和槽填充;
BERT模型的输入是上一步骤中得到的文字,输出是文字所代表的意图;通过识别出的意图,可以进行天气查询和音乐播放的功能;
模型的主要结构是多个Transformer encoders的堆叠;模型分为Pre-train和Fine-tuning两个阶段;Pre-train的目标之一是训练一个双向语言模型,挖掘词的上下文信息;Transformer encoder的自注意力机制将上下文的词编码到当前模型中,作为双向语言模型的特征提取器;但也正由于自注意力机制,多个Transformer encoders堆叠来做词预测任务时存在标签泄露问题;因此使用Masked Language Model,即将预测的词变为MASK标签,但Fine-tuning阶段输入不会出现MASK标签,为了防止模型过分依赖于MASK标签,只会将预测词的80%变为MASK标签,10%变为随机token,10%不变;Pre-train阶段的另外一个任务是Next Sentence Prediction,目的是让模型理解两个句子之间的联系;Fine-tuning阶段面向下游任务,根据不同的任务进行监督训练;
基于BERT的联合意图识别和槽填充模型,[CLS]标签经由BERT后输出文本语义特征,特征经过一个DNN分类器后输出意图类别;Token经由BERT后输出上下文相关词义特征,特征经过DNN分类器后输出标签类别;假设意图类别和N个时间步上的标签在给定输入序列下互相条件独立,则联合模型可以由下式表示:
Fine-tuning的目标函数是最大化上述概率,等价于最小化交叉熵损失;实际计算中分别计算意图识别和槽位填充的交叉熵损失值,他们之和就是联合模型的总体损失值;
步骤4:生成对话文本,使用基于GPT模型的对话文本生成;
GPT模型的输入是步骤2中得到的文字,输出是文字代表对话的文本,提供闲聊功能;
GPT模型是一种预训练+微调模型,使用Transformer的decoder部分作为特征提取器(没有与encoder Attention的部分),面对下游任务时在GPT基础上扩展模型结构进行FineTune;
使用最大化互信息(Maximum Mutual Information)作为训练目标,即使用
训练两个模型,一个正向的从输入到输出文本的Dialogue Model,对应于公式的log P(T|S)部分,一个逆向的从输出到输入文本的MMIModel,对应于公式的log P(S|T)部分;对话预处理时,将每一组对话数据(包含若干轮对话文本)合并成一句文本,使用[SEP]标识符分割,最后在文本头添加[CLS]标识符,尾部添加[SEP]标识符;训练时,借助语言模型根据前文预测下一个字的特点,将n个token文本的前n-1个token输入GPT,对应的label为后n-1个token,使用交叉熵作为损失函数,最大化公式的后验概率,逆向模型同理;预测时,Dialogue Model输入为历史对话数据和当前文本,然后逐个预测下一个字直到遇到[SEP]标识符,正向模型可以生成多个候选回复,然后输入到MMI Model中,计算loss,选取loss最小的作为最终的回复文本。
2.如权利要求1所述的一种基于智能语音芯片的中文自定义唤醒与物联交互方法,其特征在于:步骤1-2所述的时间维度T的取值是8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110302440.2/1.html,转载请声明来源钻瓜专利网。