[发明专利]一种基于重采样的多轮对话分类方法在审

专利信息
申请号: 202110819081.8 申请日: 2021-07-20
公开(公告)号: CN113672726A 公开(公告)日: 2021-11-19
发明(设计)人: 史虎军;杨强;张云菊;郭明;张玉罗;石启宏;冯扬婧澜 申请(专利权)人: 贵州电网有限责任公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/332
代理公司: 贵阳中新专利商标事务所 52100 代理人: 商小川
地址: 550002 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 采样 轮对 分类 方法
【说明书】:

发明公开了一种基于重采样的多轮对话分类方法,它包括:采集对话历史文本数据;对文本数据进行分词及去除停用词预处理操作;使用滑动窗口的方法对多轮对话进行长文本分割,分割成一个以上的文本片段;将对话数据集的对话文本数字化,将文本中的每一个词表示成向量;使用BERT作为预训练模型提取文本的全局特征;使用BERT加全连接网络框架进行分类模型的训练;步骤将测试集中对话文本分割成的文本片段,输入到BERT加全连接网络框架分类框架中,最后通过输出层输出分类标签;重采样的方法能解决BERT模型输入长度限制的问题,同时分类选择概率最大的文本,能再次有效去除对话文本冗余信息多问题。

技术领域

本发明属于自然语言处理的文本分类技术,尤其涉及一种基于 重采样的多轮对话分类方法。

背景技术

对话系统是人工智能领域中最具挑战性和最有意义的任务之一。 早在人工智能研究的初期,人们就致力于开发智能的人机对话系统。 近年来,随着深度学习在图象、语音和文本等领域的重大突破,出现 了以深度学习为核心技术的对话系统。由于神经网络强大的表征能力, 模型在文本分类和文本生成这两项任务的能力得到了大幅度提高,解 决了对话系统的多种技术难题,诞生了众多成功的商业化产品,如 Siri、小冰和小度等。

根据应用领域的不同,对话系统可以大致分为两类:任务型对话 系统和非任务型对话系统。任务型对话系统旨在帮助用户完成某些特 定的任务,例如查询天气、点外卖和指挥电力操作员等。而非任务型 对话系统更关注与人类的互动以提供合理的、趣味的回复。而对多轮 对话整体进行语义理解进而分类,可以识别整轮对话的意图,评估对 话质量的好坏,还能从对话文本中发现异常事件,实现风险管控。在 任务型对话领域,可以评估此次对话是否完成任务。而多轮对话的分 类技术的研究也能应用到实际的人与人交互的多轮对话中,用于评这 一通交互是否完成既定的任务,例如在电力领域调度对话中,可以从调令员和受令员的多轮对话中反映每次调度的质量,能更好的要求和 规范调令员和受令员行为规范,能解决效率低下及风险高等一系列问 题。多轮对话分类将对话上下文作为输入预测用户的意图,理解整段 对话的语义信息,对模型的分类能力要求更高,应用场景也更加丰富 多样。

在多轮对话分类任务中,当前的研究工作往往倾向于直接将常见 的文本分类模型应用到将多轮对话文本任务中。这些模型处理整个会 话文本的通用方法包括简单的将多个句子被拼接成一个长序列作为 模型输入以及根据多轮对话文本的层次结构(句子级别和单词级别) 进行编码,提取特征并分类。综合以上,有学者提出了一个混合模型 来组合多个神经网络的输出特征,如双向长短期记忆网络和胶囊网络 等。这种方法在一定程度上提高了多轮对话分类的效果。

已有工作忽略了对话文本的自身特点,与常见的文本分类任务所 使用的数据相比,会话文本包含更多的干扰信息,规范性较差。因此, 如果简单地将其视为普通文本进行编码,则会在模型的学习过程中引 入过多的噪声,影响模型最终的分类效果。

BERT是谷歌AI团队于2018年发布的模型,在包括文本分类任 务的多项自然语言处理任务中创造了当时最佳成绩,BERT具有强大 的学习能力,在已经预训练的参数去在领域内微调可以有效的去掉冗 余信息,因此本文选择BERT模型作为多轮对话分类的核心模型。然 而,BERT模型限制其输入字符串长度为512,而多轮对话的长度往往 超过512。

发明内容

本发明要解决的技术问题是:提供一种基于重采样的多轮对话分类方 法,基于多轮对话的数据集对模型进行微调,解决BERT模型固有的 输入文本长度限制等技术问题。

本发明技术:

一种基于重采样的多轮对话分类方法,它包括:

步骤1、采集对话历史文本数据;

步骤2、对文本数据进行分词及去除停用词预处理操作;

步骤3、使用滑动窗口的方法对多轮对话进行长文本分割,分割 成一个以上的文本片段;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110819081.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top