[发明专利]对话型文本分类的模型训练、分类、系统、设备和介质在审
| 申请号: | 201911374381.9 | 申请日: | 2019-12-27 |
| 公开(公告)号: | CN111125317A | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 杨森;罗超;胡泓;王思博 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对话 文本 分类 模型 训练 系统 设备 介质 | ||
本发明公开了一种对话型文本分类的模型训练、分类、系统、设备和介质,包括以下步骤:对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;将所述第一数据切分为多个分词;将所述分词与预训练的词向量进行匹配,得到第一分词向量;将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;将所述第二分词向量输入到HAN模型进行训练。本发明的对话型文本分类的模型训练方法采用基于层次注意力HAN算法对对话文本进行分类,解决了丢失句与句之间的关系和丢失语义的问题,提高了分类结果的准确度;同时引入了词向量和字向量表示,减少了OOV带来的影响,增加了分类结果的准确度和模型的精度。
技术领域
本发明涉及文本分类领域,尤其涉及一种对话型文本分类的模型训练、分类、系统、设备和介质。
背景技术
当前针对文本分类的模型训练方法主要分为两种,一种为把文档内的所有语句拼接起来再用基于CNN(卷积神经网络)、RNN(循环神经网络)或者BERT(BidirectionalEncoder Representations from Transformers,来自变压器的双向编码器表示)做文本分类建模,该模型训练方法的缺点是文本过长不仅增加了计算复杂度,而且丢失了句子间的相互关系,导致不能很好的构建上下文关系。另一种模型训练方法为限制文档内句子数量再拼接起来进行分类,相比于前一种方法虽然减少了文本长度,但是部分句子的丢失很可能会丢失语义,导致最终的分类结果精度不高。
发明内容
本发明要解决的技术问题是为了克服现有技术中语句拼接丢失句与句之间的关系和限制文本内句子数量丢失语义导致分类结果准确度不高的缺陷,提供一种对话型文本分类的模型训练、分类、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
一种对话型文本分类的模型训练方法,包括以下步骤:
对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;
将所述第一数据切分为多个分词;
将所述分词与预训练的词向量进行匹配,得到第一分词向量;
将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
将所述第二分词向量输入到HAN(一种层次注意力算法)模型进行训练。
较佳地,所述对训练数据进行违规标注得到第一数据的步骤具体包括:
使用聚类算法将所述训练数据分成若干份第一样本数据;
从每份所述第一样本数据中抽取若干条数据作为第二样本数据;
计算任一条所述第二样本数据与已标注的所述训练数据的编辑距离;
若所述编辑距离大于预设值,则对所述第一样本数据进行违规标注得到第一数据。
较佳地,所述将所述第一数据切分为多个分词的步骤具体包括:
将所述第一数据进行预处理得第二数据;
将所述第二数据与预设模型数据比较滤掉所述第二数据中的无意义语句得到第三数据;
将所述第三数据切分为多个分词。
较佳地,所述将所述第二分词向量输入到HAN模型进行训练的步骤具体包括:
将所述第二分词向量和预设特征向量输入到HAN模型。
较佳地,所述模型训练方法还包括:
判断模型输出结果是否满足预设阀值,若是,则将模型输出结果作为分类结果;若否,则将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374381.9/2.html,转载请声明来源钻瓜专利网。





