[发明专利]一种意图识别的方法、装置及计算机可读存储介质有效
| 申请号: | 201910087303.4 | 申请日: | 2019-01-29 |
| 公开(公告)号: | CN111563208B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 梁亮;丁磊;董滨;姜珊珊;童毅轩 | 申请(专利权)人: | 株式会社理光 |
| 主分类号: | G06F16/954 | 分类号: | G06F16/954;G06F16/35;G06F40/284;G06F40/30 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;姜精斌 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 意图 识别 方法 装置 计算机 可读 存储 介质 | ||
1.一种意图识别的方法,其特征在于,包括:
基于多个语料样本,生成异构文本网络,其中,所述语料样本包括意图已标注的多个标注语料和意图未标注的多个未标注语料,所述异构文本网络包括:所述语料样本与从所述语料样本抽取出的词之间的第一共现关系,以及,抽取出的存在于同一语料样本中的两个词之间的第二共现关系;
利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词;
利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器;
接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。
2.如权利要求1所述的方法,其特征在于,所述利用所述多个语料样本的关键词,训练意图识别模型的步骤,包括:
利用所述标注语料的关键词,训练意图识别分类器;
在所述训练结束条件满足时,结束训练过程,否则,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;
获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注;
从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,返回利用所述标注语料,训练所述意图识别分类器的步骤。
3.如权利要求2所述的方法,其特征在于,所述利用所述标注语料的关键词,训练所述意图识别分类器的步骤,包括:
根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练;
其中,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。
4.如权利要求1所述的方法,其特征在于,所述基于多个语料样本,生成异构文本网络的步骤,包括:
对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理;
抽取出所述语料样本中的词,建立所述语料样本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料样本中的两个词,建立词与词之间的第二共现关系;
生成包括所述第一共现关系和第二共现关系的异构文本网络。
5.如权利要求1所述的方法,其特征在于,所述根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词的步骤,包括:
计算所述语料样本与所述语料样本的各个词之间的向量相似度;
选择出向量相似度最高的预设数量的词,作为所述语料样本的关键词。
6.如权利要求1所述的方法,其特征在于,所述语言层级包括以下级别中的至少两个:字符级、词级和短语级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910087303.4/1.html,转载请声明来源钻瓜专利网。





