[发明专利]一种基于改进LSTM-RNN的陆空通话语义一致性校验方法在审

申请号：	201810311700.0	申请日：	2018-04-09
公开（公告）号：	CN108520298A	公开（公告）日：	2018-09-11
发明（设计）人：	贾桂敏;程方圆;杨金锋	申请（专利权）人：	中国民航大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06F17/27
代理公司：	天津才智专利商标代理有限公司 12108	代理人：	庞学欣
地址：	300300 天***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义向量语义一致性陆空校验通话语料库池化词表语义处理序列学习样本统计分析原有的自动地拟合向量学习语句单词制作句子送入改进民航判决检验
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：所述的方法包括按顺序进行的下列步骤：

步骤1)制作语料库：

步骤1.1)从实际的陆空通话、相关教材和民航局陆空通话标准中，挑选复诵类型的语句对并存入txt文本中；

步骤1.2)将上述文本中的语句对分成正样本和负样本两种类型，其中正样本由语义一致性的语句对组成，负样本由语义不一致性的语句对组成；

步骤1.3)对上述语句对进行分词：为了方便描述句子语义，需要对语句对进行分词，以每个单词为单位将语句对中的句子进行分词，由分词之后的所有语句对构成语料库；

步骤2)根据民航的通话标准和上述语料库制作专用词表并获得单词的one-hot向量：

步骤2.1)根据民航的通话标准和上述语料库制作一个专用词表；

步骤2.2)利用上述专用词表获得语料库中所有单词的one-hot向量，其中：One-hot向量是用一个向量表示一个单词，向量的维度是词表的大小，其中One-hot向量绝大多数位置的取值为0，只有一个位置的取值为1，这个位置就代表了当前的单词；

步骤3)产生每一语句对中两个句子的语义向量：

将上述每一语句对中两个句子的所有单词的one-hot向量分别作为一个单词序列输入到两个LSTM-RNN模型中，以对这两个LSTM-RNN模型同时进行训练，两个LSTM-RNN模型的输出向量分别为两个句子的语义向量；

步骤4)对语义向量进行平均池化操作，以提高语义向量的泛化性，同时降低语义向量的维数；

步骤5)将两个句子的语义向量输入到MLP模型中，通过MLP模型学习出语义向量的相关程度；

步骤6)最后根据MLP模型学习出的结果使用K近邻法来校验两个句子的语义是否一致。

2.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤1.1)中，所述的语句对包括两个句子：分别为空管人员指令和飞行员复诵语句。

3.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤3)中，所述的对两个LSTM-RNN模型同时进行训练的方法是：

采用最小化交叉熵误差来训练LSTM-RNN模型；交叉熵误差公式如下：

在上式中，S是语句对的相似度，L是被标记的数字，如果语句对的语义一致，L为1，否则为0；

采用时间反向传播的方法来估计LSTM-RNN模型的参数；在反向传播的过程中，需要求交叉熵误差的梯度，并利用梯度值更新参数。

4.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤4)中，所述的对语义向量进行平均池化操作的方法是：

采用平均池化法将两个LSTM-RNN模型中每一个隐层单元的输出合并为一个语义向量；平均池化是将LSTM-RNN模型中的每一个时间节点的输出向量求等权平均，公式如下：

N_m表示第一个LSTM-RNN模型的隐层输出节点的个数；

y_i表示第一个LSTM-RNN模型的第i个隐层节点的输出向量；

h_m表示平均池化之后得到的句子的语义向量；

上述公式是第一个LSTM-RNN模型语义向量；第二个LSTM-RNN模型的平均池化方式与上述方法一致：

为了得到复述类型的语句对的语义关系，将两个语义向量h_m和语义向量h_n连接为一个语义向量。

5.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法，其特征在于：在步骤6)中，所述的根据上述MLP模型的学习结果，利用K近邻法校验两个句子的语义是否一致的方法如下：

K近邻法可以表示为：设有N个已知样本分属于c个w_i类，考察新样本x在这些样本中的前K个近邻，然后确定前K个近邻所在类别的出现频率，最后选取K个近邻中出现频率最高的类别作为测试数据的预测类别；定义判别函数为：

g_i(x)＝k_i，i＝0,1 (9)

其中，k_i表示各类别所占的个数；x为MLP模型的输出；

决策的规则是：

在上式中，选择出判别函数g₀(x)和g₁(x)中较大的值对应的类别i赋值给j；其中，j＝1时，表明复述一致；j＝0时，则表明复述不一致。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国民航大学，未经中国民航大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810311700.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载