[发明专利]一种基于重采样的多轮对话分类方法在审
| 申请号: | 202110819081.8 | 申请日: | 2021-07-20 |
| 公开(公告)号: | CN113672726A | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 史虎军;杨强;张云菊;郭明;张玉罗;石启宏;冯扬婧澜 | 申请(专利权)人: | 贵州电网有限责任公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
| 代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 商小川 |
| 地址: | 550002 贵*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 采样 轮对 分类 方法 | ||
本发明公开了一种基于重采样的多轮对话分类方法,它包括:采集对话历史文本数据;对文本数据进行分词及去除停用词预处理操作;使用滑动窗口的方法对多轮对话进行长文本分割,分割成一个以上的文本片段;将对话数据集的对话文本数字化,将文本中的每一个词表示成向量;使用BERT作为预训练模型提取文本的全局特征;使用BERT加全连接网络框架进行分类模型的训练;步骤将测试集中对话文本分割成的文本片段,输入到BERT加全连接网络框架分类框架中,最后通过输出层输出分类标签;重采样的方法能解决BERT模型输入长度限制的问题,同时分类选择概率最大的文本,能再次有效去除对话文本冗余信息多问题。
技术领域
本发明属于自然语言处理的文本分类技术,尤其涉及一种基于 重采样的多轮对话分类方法。
背景技术
对话系统是人工智能领域中最具挑战性和最有意义的任务之一。 早在人工智能研究的初期,人们就致力于开发智能的人机对话系统。 近年来,随着深度学习在图象、语音和文本等领域的重大突破,出现 了以深度学习为核心技术的对话系统。由于神经网络强大的表征能力, 模型在文本分类和文本生成这两项任务的能力得到了大幅度提高,解 决了对话系统的多种技术难题,诞生了众多成功的商业化产品,如 Siri、小冰和小度等。
根据应用领域的不同,对话系统可以大致分为两类:任务型对话 系统和非任务型对话系统。任务型对话系统旨在帮助用户完成某些特 定的任务,例如查询天气、点外卖和指挥电力操作员等。而非任务型 对话系统更关注与人类的互动以提供合理的、趣味的回复。而对多轮 对话整体进行语义理解进而分类,可以识别整轮对话的意图,评估对 话质量的好坏,还能从对话文本中发现异常事件,实现风险管控。在 任务型对话领域,可以评估此次对话是否完成任务。而多轮对话的分 类技术的研究也能应用到实际的人与人交互的多轮对话中,用于评这 一通交互是否完成既定的任务,例如在电力领域调度对话中,可以从调令员和受令员的多轮对话中反映每次调度的质量,能更好的要求和 规范调令员和受令员行为规范,能解决效率低下及风险高等一系列问 题。多轮对话分类将对话上下文作为输入预测用户的意图,理解整段 对话的语义信息,对模型的分类能力要求更高,应用场景也更加丰富 多样。
在多轮对话分类任务中,当前的研究工作往往倾向于直接将常见 的文本分类模型应用到将多轮对话文本任务中。这些模型处理整个会 话文本的通用方法包括简单的将多个句子被拼接成一个长序列作为 模型输入以及根据多轮对话文本的层次结构(句子级别和单词级别) 进行编码,提取特征并分类。综合以上,有学者提出了一个混合模型 来组合多个神经网络的输出特征,如双向长短期记忆网络和胶囊网络 等。这种方法在一定程度上提高了多轮对话分类的效果。
已有工作忽略了对话文本的自身特点,与常见的文本分类任务所 使用的数据相比,会话文本包含更多的干扰信息,规范性较差。因此, 如果简单地将其视为普通文本进行编码,则会在模型的学习过程中引 入过多的噪声,影响模型最终的分类效果。
BERT是谷歌AI团队于2018年发布的模型,在包括文本分类任 务的多项自然语言处理任务中创造了当时最佳成绩,BERT具有强大 的学习能力,在已经预训练的参数去在领域内微调可以有效的去掉冗 余信息,因此本文选择BERT模型作为多轮对话分类的核心模型。然 而,BERT模型限制其输入字符串长度为512,而多轮对话的长度往往 超过512。
发明内容
本发明要解决的技术问题是:提供一种基于重采样的多轮对话分类方 法,基于多轮对话的数据集对模型进行微调,解决BERT模型固有的 输入文本长度限制等技术问题。
本发明技术:
一种基于重采样的多轮对话分类方法,它包括:
步骤1、采集对话历史文本数据;
步骤2、对文本数据进行分词及去除停用词预处理操作;
步骤3、使用滑动窗口的方法对多轮对话进行长文本分割,分割 成一个以上的文本片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110819081.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基因组甲基化文库及其制备方法和应用
- 下一篇:一种机械调控式外界驱动传送装置





