[发明专利]一种改进的语义意图识别方法以及LSTM构架系统在审
申请号: | 202010693872.6 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111914547A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 张宗世;汪溪;张世侠 | 申请(专利权)人: | 深圳宜搜天下科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 深圳市舜立知识产权代理事务所(普通合伙) 44335 | 代理人: | 侯艺 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 语义 意图 识别 方法 以及 lstm 构架 系统 | ||
本发明公开了一种改进的语义意图识别方法以及LSTM构架系统,包括以下步骤:获取训练语料;中文分词步骤;去除停用词及标点符号步骤;词向量计算步骤;根据训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;将第二特征数值矩阵通过外接的softmax函数对其进行分类。
技术领域
本发明涉及一种改进的语义意图识别方法以及LSTM构架系统。
背景技术
在自然语言处理领域中,意图识别是一种理解语义的直接方式。它主要是通过分类的办法将文本分到相应的意图种类,这在互联网搜索引擎和智能问答系统中都起着很重要的作用。简单来讲,就是当用户输入一句话或者一段短文本时,意图识别系统可以准确识别出它是属于哪个领域的问题,然后分配给相应的领域智能机器人等相关模块进行后续处理,这在当前众多问题分类的情况下,可以显著提升问题匹配的准确率。现有技术主要提供了如下方法:
1.基于词典以及模版规则的方法:不同的意图会有的不同的领域词典,比如商品名、地名、歌曲名等。我们根据用户的意图和词典的匹配程度或者重合程度来进行判断,最简单的一个规则是将该文本判别给与词典重合程度高的类别。但这个工作的关键是每个类别领域词典必须得做地足够完备。
2.基于机器学习模型的方法:这种主要是通过机器学习及深度学习的方式,对已标注好的领域的语料进行训练学习,得到一个意图识别的模型。利用该模型,当再输入一个测试集时,它能快速地预测出该语料对应的分类,并提供对应的置信度。使用这种方式的一个好处就是,在语料不断丰富后,模型的准确度会不断提升。本发明主要介绍的就是采用深度学习的这种方式进行意图识别。
请参见图1,LSTM(Long Short-Term Memory)长短期记忆网络是一种时间循环神经网络,亦是一种特殊的RNN。RNN(Recurrent Neural Network)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有循环单元按链式连接的递归神经网络。而LSTM主要是为了解决一般的RNN存在的长期依赖问题而被专门设计出来,在很多领域方向上,它比标准的RNN学习网络表现得更好。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:提供了能够提高训练语料的准确度、进一步提高意图分别识别的准确率的一种改进的语义意图识别方法以及LSTM构架系统。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种改进的语义意图识别方法,包括以下步骤:
获取训练语料;
中文分词:对获取到的训练语料进行中文分词;
去除停用词及标点符号:去除训练语料中的停用词及符号,从而得到训练语料的若干特征词;
词向量计算:计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量;
根据所述训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;其中,所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳宜搜天下科技股份有限公司,未经深圳宜搜天下科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010693872.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双耳节拍低频音波脉冲的制作方法
- 下一篇:壁纸显示方法、装置及设备