[发明专利]文本分类方法、设备及存储介质在审
申请号: | 201911380054.4 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111061881A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 夏鑫;戴海宏 | 申请(专利权)人: | 浪潮通用软件有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 吴绍群 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 设备 存储 介质 | ||
本公开的实施例公开了一种文本分类方法、设备及存储介质。该方法的一具体实施方式包括:获取文本数据;将该文本数据输入根据语义标签和与语义标签对应的训练语句预先训练的文本分类模型,得到分类结果;其中该文本分类模型包括:嵌入层,用于将语义标签和训练语句转换为N阶张量;特征提取层,用于对N阶张量进行特征提取;合并层用于对特征提取层的输出结果进行合并;全连接层用于对合并层的输出结果进行分类。该实施方式可以提高处理器对文本分类的处理速度和精度,不需要大量复杂的分析运算,降低处理器的运算量。
技术领域
本公开的实施例涉及文本分类技术领域,具体涉及文本分类方法、设备及存储介质。
背景技术
随着网络技术的发展,越来越多的业务需要通过网络进行处理。而实时处理网络业务请求的速率也逐渐成为企业服务规模发展的瓶颈。同时,网络业务请求的复杂性也使得很多业务人员无法快速处理相关业务。
例如对于文本数据,对于服务器来说,如何快速地获取其意图,即语义,从而便于做出相应的应对措施,也是一个需要解决的问题。
发明内容
本公开的实施例提出了文本分类方法、设备及存储介质。
第一方面,本公开的实施例提供了一种文本分类方法,该方法包括:获取文本数据;将该文本数据输入根据语义标签和与语义标签对应的训练语句预先训练的文本分类模型,得到分类结果;其中,该文本分类模型包括:嵌入层,用于将语义标签和训练语句转换为N阶张量;特征提取层,用于对N阶张量进行特征提取;合并层,用于对特征提取层的输出结果进行合并;全连接层,用于对合并层的输出结果进行分类。
在一些实施例中,特征提取层包括参数差异化的多个特征提取单元,合并层用于对多个特征提取单元分别的输出结果进行合并。
在一些实施例中,特征提取单元包括卷积层和池化层。
在一些实施例中,在合并层的处理步骤包括:在合并层对多个特征提取单元分别的输出结果进行拼接,得到拼接结果;将该拼接结果进行平整化处理。
在一些实施例中,该分类结果包括文本数据与多个语义标签分别匹配的概率值;该方法还包括:确定概率值中的最大值对应的语义标签为文本数据对应的语义标签。
在一些实施例中,得到文本分类模型的训练步骤包括:获取训练数据集,其中,该训练数据集包括语义标签和与语义标签对应的训练语句;将该语义标签和训练语句依次经过初始神经网络模型的嵌入层、特征提取层、合并层、全连接层,得到预测分类结果,其中,该预测分类结果包括训练语句分别与多个语义标签相匹配的预测概率;基于损失函数计算预测分类结果和训练数据集中与训练语句匹配的语义标签的损失值;响应于该损失值在预设数值范围内,得到的神经网络模型为文本分类模型。
在一些实施例中,该方法还包括:将训练数据集中的训练语句进行随机乱序处理;将乱序处理后的训练语句分批次执行训练步骤。
在一些实施例中,获取训练数据集,包括:对样本文本进行词汇切分,得到多个词汇;去除上述词汇中的停用词,得到样本词汇;获取样本词汇的同义词;将同义词和样本文本中的剩余样本词汇进行组合,得到样本语句;
对样本语句和样本文本中的语句进行分类,得到训练数据集,其中,该训练数据集包括语义标签和与语义标签对应的训练语句。
第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的文本分类方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通用软件有限公司,未经浪潮通用软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911380054.4/2.html,转载请声明来源钻瓜专利网。