[发明专利]对话型文本分类的模型训练、分类、系统、设备和介质在审

申请号：	201911374381.9	申请日：	2019-12-27
公开（公告）号：	CN111125317A	公开（公告）日：	2020-05-08
发明（设计）人：	杨森;罗超;胡泓;王思博	申请（专利权）人：	携程计算机技术（上海）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/289;G06F40/30
代理公司：	上海弼兴律师事务所 31283	代理人：	薛琦;张冉
地址：	200335 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	对话文本分类模型训练系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种对话型文本分类的模型训练、分类、系统、设备和介质，包括以下步骤：对训练数据进行违规标注得到第一数据，所述第一数据包括原始对话语句；将所述第一数据切分为多个分词；将所述分词与预训练的词向量进行匹配，得到第一分词向量；将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；将所述第二分词向量输入到HAN模型进行训练。本发明的对话型文本分类的模型训练方法采用基于层次注意力HAN算法对对话文本进行分类，解决了丢失句与句之间的关系和丢失语义的问题，提高了分类结果的准确度；同时引入了词向量和字向量表示，减少了OOV带来的影响，增加了分类结果的准确度和模型的精度。

技术领域

本发明涉及文本分类领域，尤其涉及一种对话型文本分类的模型训练、分类、系统、设备和介质。

背景技术

当前针对文本分类的模型训练方法主要分为两种，一种为把文档内的所有语句拼接起来再用基于CNN(卷积神经网络)、RNN(循环神经网络)或者BERT(BidirectionalEncoder Representations from Transformers，来自变压器的双向编码器表示)做文本分类建模，该模型训练方法的缺点是文本过长不仅增加了计算复杂度，而且丢失了句子间的相互关系，导致不能很好的构建上下文关系。另一种模型训练方法为限制文档内句子数量再拼接起来进行分类，相比于前一种方法虽然减少了文本长度，但是部分句子的丢失很可能会丢失语义，导致最终的分类结果精度不高。

发明内容

本发明要解决的技术问题是为了克服现有技术中语句拼接丢失句与句之间的关系和限制文本内句子数量丢失语义导致分类结果准确度不高的缺陷，提供一种对话型文本分类的模型训练、分类、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

一种对话型文本分类的模型训练方法，包括以下步骤：

对训练数据进行违规标注得到第一数据，所述第一数据包括原始对话语句；

将所述第一数据切分为多个分词；

将所述分词与预训练的词向量进行匹配，得到第一分词向量；

将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

将所述第二分词向量输入到HAN(一种层次注意力算法)模型进行训练。

较佳地，所述对训练数据进行违规标注得到第一数据的步骤具体包括：

使用聚类算法将所述训练数据分成若干份第一样本数据；

从每份所述第一样本数据中抽取若干条数据作为第二样本数据；