[发明专利]多意图识别模型训练方法和多意图识别方法及相关装置在审
| 申请号: | 202010951226.5 | 申请日: | 2020-09-11 |
| 公开(公告)号: | CN111984780A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 黄石磊;张剑 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/30;G06N3/04 |
| 代理公司: | 深圳市万商天勤知识产权事务所(普通合伙) 44279 | 代理人: | 罗建平 |
| 地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 意图 识别 模型 训练 方法 相关 装置 | ||
本发明公开了一种多意图识别模型训练方法和多意图识别方法及相关装置。多意图识别模型训练方法包括:得到每条对话文本的编码向量,并计算带有上下文相关的语境信息的特征向量;判断是否需要引入上下文相关的语境信息,若是,则将该条对话文本的编码向量及其带有上下文相关的语境信息的特征向量结合后输入分类器;否则,直接将该条对话文本的编码向量输入分类器;通过分类器训练,得到用于对对话文本的意图进行分类识别的多标签分类模型。多意图识别方法包括:利用训练得到的多标签分类模型对对话文本的意图进行分类识别。本发明方法可以更好的迁移使用,具有更精准的识别效果,通过利用上下文相关的语境信息,能更有利于提升分类算法的性能。
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种多意图识别模型训练方法和多意图识别方法及相关装置。
背景技术
在现有的对话系统中,存在许多非标准语言表达形式的句子,如句法的结构比较简单,大多是短句和省略形式,对话的内容很难在单轮对话中交代清楚,意图通常隐含在多轮对话中。通过多轮对话可以收集更多的语义信息,更准确的识别出提问者的意图。在实际应用场景中,无论是语音识别还是人的语言表述都是非精确的,这无形之中大大增加了机器人对用户的意图理解难度。如何正确识别提问者的意图,一直以来都是多轮对话系统研究的重点之一。
早期的意图识别方法是将其视为语义话语分类问题,主要包括基于规则(rule-based)模板的方法、使用统计特征的方法以及基于机器学习分类算法的方法。基于规则模板的方法,通常针对于一些非常相似的句子,并且这些句子符合一定的规则。它需要人为地构建规则模板和类别信息,即哪些关键字对应于哪个意图。然后,通过规则模板解析的方式来确定提问者的意图。基于统计特征的方法,是使用意图词典进行词频统计,取出现最频繁的词对应的意图为提问者的意图。基于机器学习的方法通常使用分类器,如朴素贝叶斯(Naive Bayes),支持向量机(Support Vector Machine)等等,这些方法实现多意图识别的常用方法是为每个意图训练一个分类器,然后逐层使用它,这种方法在意图识别的准确性上有了显著的提高。
随着深度学习的发展,利用神经网络模型解决对话系统的意图识别逐渐成为主流。这类的方法主要是将意图识别任务转化为对意图的分类任务,类似于文本中的聚类任务,通过使用文本分类算法达到意图分类的效果。
但是,以上几种方法均存在缺陷。由于人类交流时酝酿语言的过程较短,句法结构比较简单,多用短句和省略形式,那么通过制定规则模板进行识别意图的方式就不适用了,这种方式不仅人工成本高、效率低而且不易扩展。而基于统计特征的方法虽然相对简单,但是其识别效果不好。基于机器学习的方法虽然在意图识别的精度上有所提高,但是它们大多不能解决稀疏矩阵的问题,只能依靠大量的标记语料库,同样无法降低人工成本。
基于深度学习的文本分类算法大多没有有效的利用对话文本中的上下文信息。在多轮对话系统中,当前提问者的意图往往是和前几轮或后几轮对话是有联系的。因此,如何利用对话的语境信息来理解当前对话的意图,是对话系统的难点。
发明内容
本发明的目的在于提供一种多意图识别模型训练方法、一种多意图识别方法及相关装置,用于解决如何利用对话的语境信息来理解当前对话的意图的技术问题。
为实现上述目的,本发明采用如下技术方案:
第一方面,提供一种多意图识别模型训练方法,用于多意图识别,该方法包括:编码步骤:对训练数据进行编码,得到训练数据中的每条对话文本的编码向量,并计算每条对话文本的带有上下文相关的语境信息的特征向量;控制步骤:针对每一条对话文本,判断是否需要引入上下文相关的语境信息;分类训练步骤:针对每一条对话文本,若控制步骤判断为是,则将该条对话文本的编码向量及其带有上下文相关的语境信息的特征向量结合后输入分类器;否则,直接将该条对话文本的编码向量输入分类器;通过分类器训练,得到用于对对话文本的意图进行分类识别的多标签分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010951226.5/2.html,转载请声明来源钻瓜专利网。





