[发明专利]文本意图识别方法、装置、设备和存储介质在审
申请号: | 202010033742.X | 申请日: | 2020-01-13 |
公开(公告)号: | CN111221944A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 李小娟;徐国强 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/332;G06F40/30;G06N3/04 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 意图 识别 方法 装置 设备 存储 介质 | ||
1.一种文本意图识别方法,其特征在于,所述方法包括:
获取待处理的文本信息以及数据库所存储的多个标准句子;
计算所述多个待处理的文本信息的特征值以及获取所述数据库所存储的多个标准句子的特征值;
通过所述多个标准句子的特征值以及获取所述待处理的文本信息的特征值计算多个第一相似度,得到第一相似度集合;
提取所述第一相似度集合中最大的所述第一相似度,得到第一目标相似度;
判断所述第一目标相似度是否小于阈值;
若所述第一目标相似度小于阈值,则将所述多个标准句子的特征值以及所述待处理的文本信息的特征值输入至目标神经网络模型,通过所述目标神经网络模型输出第二相似度集合,所述目标神经网络模型为长短期记忆模型、注意力模型、双向长短期记忆BiLSTM模型以及软最大值Softmax层串联而成的神经网络;
通过提取所述第二相似度集合中的元素,得到用户的最终意图。
2.根据权利要求1所述的方法,其特征在于,所述若所述第一目标相似度小于阈值,则将所述多个标准句子的特征值以及所述待处理的文本信息的特征值输入至目标神经网络模型,通过所述目标神经网络模型输出第二相似度集合,包括:
获取所述待处理的文本信息以及所述数据库所存储的多个标准句子,得到第一矩阵a以及第二矩阵b的集合;
分别将每个所述第二矩阵b与所述第一矩阵a组合成输入信息,将所述输入信息输入至第一神经网络,得到多个所述第一神经网络的第一输出矩阵和所述第一神经网络的第二输出矩阵所述第一神经网络模型是指长短期记忆模型;
将所述多个和输入至第二神经网络模型,得到所述第二神经网络的第一输出矩阵和所述第二神经网络的第二输出矩阵所述第二神经网络模型是指注意力Attention模型;
将和组合成集合ma和集合mb,所述ma为所述mb为
将所述多个集合ma以及对应的集合mb依次输入至第三神经网络模型,通过所述第三神经网络模型输出得到ma对应的概率va和对应的概率vb,所述第三神经网络模型为BiLSTM模型;
将va和vb依次输入池化层,得到第二相似度集合v,所述池化层包括最大池化层以及平均池化层,所述v为{va,vue,va,max,vb,vue,vb,max}。
3.根据权利要求1所述的方法,其特征在于,所述通过所述多个标准句子的特征值以及所述待处理的文本信息的特征值计算多个第一相似度,并提取最大的所述第一相似度,得到第一目标相似度,包括:
获取所述多个待处理文本信息中每一个词汇的特征值以及所述多个标准句子的特征值;
通过所述多个待处理文本信息中每一个词汇的特征值将所述多个待处理文本信息映射成多个第一向量;
通过所述多个标准句子的特征值将所述数据库所存储的多个标准句子映射成多个第二向量;
通过计算每一个所述第一向量与所述多个第二向量之间的所述第一相似度,得到多个所述第一相似度;
将所述多个第一相似度按照数值从大到小排序,并提取数值最大的所述第一相似度作为所述第一目标相似度。
4.根据权利要求1所述的方法,其特征在于,所述计算所述多个待处理的文本信息的特征值以及获取所述数据库所存储的多个标准句子的特征值,包括:
通过计算文档词频,所述xa为词汇在所述待处理文本信息中出现的次数,所述xb为所述待处理的文本信息的词数;
通过计算逆文档词频,所述ya为数据库所存储的句子总数,所述yb为数据库所存储包含所述词汇的句子数;
通过TFIDF=TF*IDF计算所述多个待处理文本信息中每一个词汇的特征值以及获取所述多个标准句子的特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033742.X/1.html,转载请声明来源钻瓜专利网。