[发明专利]对话型文本分类的模型训练、分类、系统、设备和介质在审
| 申请号: | 201911374381.9 | 申请日: | 2019-12-27 |
| 公开(公告)号: | CN111125317A | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 杨森;罗超;胡泓;王思博 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对话 文本 分类 模型 训练 系统 设备 介质 | ||
1.一种对话型文本分类的模型训练方法,其特征在于,包括以下步骤:
对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;
将所述第一数据切分为多个分词;
将所述分词与预训练的词向量进行匹配,得到第一分词向量;
将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
将所述第二分词向量输入到HAN模型进行训练。
2.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述对训练数据进行违规标注得到第一数据的步骤具体包括:
使用聚类算法将所述训练数据分成若干份第一样本数据;
从每份所述第一样本数据中抽取若干条数据作为第二样本数据;
计算任一条所述第二样本数据与已标注的所述训练数据的编辑距离;
若所述编辑距离大于预设值,则对所述第一样本数据进行违规标注得到第一数据。
3.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述将所述第一数据切分为多个分词的步骤具体包括:
将所述第一数据进行预处理得第二数据;
将所述第二数据与预设模型数据比较滤掉所述第二数据中的无意义语句得到第三数据;
将所述第三数据切分为多个分词。
4.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述将所述第二分词向量输入到HAN模型进行训练的步骤具体包括:
将所述第二分词向量和预设特征向量输入到HAN模型进行训练。
5.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述模型训练方法还包括:
判断模型输出结果是否满足预设阀值,若是,则将模型输出结果作为分类结果;若否,则将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据;
将所述第四数据重新输入到所述HAN模型进行训练,返回所述步骤判断模型输出结果是否满足预设阀值。
6.一种对话型文本的分类方法,其特征在于,所述分类方法包括以下步骤:
获取对话型文本数据,所述对话型文本数据包括原始对话语句;
将所述对话型文本数据切分为多个分词;
将所述分词与预训练的词向量进行匹配,得到第一分词向量;
将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
将所述第二分词向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果。
7.如权利要求6所述的对话型文本的分类方法,其特征在于,所述将所述第二分词向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果的步骤具体包括:
将所述第二分词向量和预设特征向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果。
8.如权利要求6所述的对话型文本的分类方法,其特征在于,所述预训练的词向量包括Elmo词向量和Glove词向量;
所述预训练的字向量包括Glove字向量。
9.一种对话型文本分类的模型训练系统,其特征在于,包括以下模块:
第一数据获取模块,用于对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;
第一分词获取模块,用于将所述第一数据切分为多个分词;
第一向量获取模块,用于将所述分词与预训练的词向量进行匹配,得到第一分词向量;
第二向量获取模块,用于将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
模型输入模块,用于将所述第二分词向量输入到HAN模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374381.9/1.html,转载请声明来源钻瓜专利网。





