[发明专利]一种基于改进LSTM-RNN的陆空通话语义一致性校验方法在审

专利信息
申请号: 201810311700.0 申请日: 2018-04-09
公开(公告)号: CN108520298A 公开(公告)日: 2018-09-11
发明(设计)人: 贾桂敏;程方圆;杨金锋 申请(专利权)人: 中国民航大学
主分类号: G06N3/04 分类号: G06N3/04;G06F17/27
代理公司: 天津才智专利商标代理有限公司 12108 代理人: 庞学欣
地址: 300300 天*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义向量 语义一致性 陆空 校验 通话 语料库 池化 词表 语义 处理序列 学习样本 统计分析 原有的 自动地 拟合 向量 学习 语句 单词 制作 句子 送入 改进 民航 判决 检验
【权利要求书】:

1.一种基于改进LSTM-RNN的陆空通话语义一致性校验方法,其特征在于:所述的方法包括按顺序进行的下列步骤:

步骤1)制作语料库:

步骤1.1)从实际的陆空通话、相关教材和民航局陆空通话标准中,挑选复诵类型的语句对并存入txt文本中;

步骤1.2)将上述文本中的语句对分成正样本和负样本两种类型,其中正样本由语义一致性的语句对组成,负样本由语义不一致性的语句对组成;

步骤1.3)对上述语句对进行分词:为了方便描述句子语义,需要对语句对进行分词,以每个单词为单位将语句对中的句子进行分词,由分词之后的所有语句对构成语料库;

步骤2)根据民航的通话标准和上述语料库制作专用词表并获得单词的one-hot向量:

步骤2.1)根据民航的通话标准和上述语料库制作一个专用词表;

步骤2.2)利用上述专用词表获得语料库中所有单词的one-hot向量,其中:One-hot向量是用一个向量表示一个单词,向量的维度是词表的大小,其中One-hot向量绝大多数位置的取值为0,只有一个位置的取值为1,这个位置就代表了当前的单词;

步骤3)产生每一语句对中两个句子的语义向量:

将上述每一语句对中两个句子的所有单词的one-hot向量分别作为一个单词序列输入到两个LSTM-RNN模型中,以对这两个LSTM-RNN模型同时进行训练,两个LSTM-RNN模型的输出向量分别为两个句子的语义向量;

步骤4)对语义向量进行平均池化操作,以提高语义向量的泛化性,同时降低语义向量的维数;

步骤5)将两个句子的语义向量输入到MLP模型中,通过MLP模型学习出语义向量的相关程度;

步骤6)最后根据MLP模型学习出的结果使用K近邻法来校验两个句子的语义是否一致。

2.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法,其特征在于:在步骤1.1)中,所述的语句对包括两个句子:分别为空管人员指令和飞行员复诵语句。

3.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法,其特征在于:在步骤3)中,所述的对两个LSTM-RNN模型同时进行训练的方法是:

采用最小化交叉熵误差来训练LSTM-RNN模型;交叉熵误差公式如下:

在上式中,S是语句对的相似度,L是被标记的数字,如果语句对的语义一致,L为1,否则为0;

采用时间反向传播的方法来估计LSTM-RNN模型的参数;在反向传播的过程中,需要求交叉熵误差的梯度,并利用梯度值更新参数。

4.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法,其特征在于:在步骤4)中,所述的对语义向量进行平均池化操作的方法是:

采用平均池化法将两个LSTM-RNN模型中每一个隐层单元的输出合并为一个语义向量;平均池化是将LSTM-RNN模型中的每一个时间节点的输出向量求等权平均,公式如下:

Nm表示第一个LSTM-RNN模型的隐层输出节点的个数;

yi表示第一个LSTM-RNN模型的第i个隐层节点的输出向量;

hm表示平均池化之后得到的句子的语义向量;

上述公式是第一个LSTM-RNN模型语义向量;第二个LSTM-RNN模型的平均池化方式与上述方法一致:

为了得到复述类型的语句对的语义关系,将两个语义向量hm和语义向量hn连接为一个语义向量。

5.根据权利要求1所述的基于改进LSTM-RNN的陆空通话语义一致性校验方法,其特征在于:在步骤6)中,所述的根据上述MLP模型的学习结果,利用K近邻法校验两个句子的语义是否一致的方法如下:

K近邻法可以表示为:设有N个已知样本分属于c个wi类,考察新样本x在这些样本中的前K个近邻,然后确定前K个近邻所在类别的出现频率,最后选取K个近邻中出现频率最高的类别作为测试数据的预测类别;定义判别函数为:

gi(x)=ki,i=0,1 (9)

其中,ki表示各类别所占的个数;x为MLP模型的输出;

决策的规则是:

在上式中,选择出判别函数g0(x)和g1(x)中较大的值对应的类别i赋值给j;其中,j=1时,表明复述一致;j=0时,则表明复述不一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810311700.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top