[发明专利]一种文本分类方法、装置、计算机设备及存储介质在审

申请号：	202010133657.0	申请日：	2020-02-28
公开（公告）号：	CN111414474A	公开（公告）日：	2020-07-14
发明（设计）人：	周君君	申请（专利权）人：	中国平安财产保险股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/216
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市福田区益田路***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于人工智能领域，涉及一种基于词嵌入向量技术的文本分类方法，包括：接收用户终端发送的文本分类请求，文本分类请求至少携带有原始文本数据；响应文本分类请求，对原始文本数据进行映射操作，获取单元向量数据；对单元向量数据进行最值操作，获取最值向量数据，最值向量数据包括最大值向量数据以及最小值向量数据；对单元向量数据以及最值向量数据进行拼接操作，获取目标文本向量；将目标文本向量输入至预设的概率分布模型，获取概率预测结果；向用户终端输出概率预测结果。本申请还提供一种基于词嵌入向量技术的文本分类装置、计算机设备及存储介质。本申请能够提高文本分类的性能，降低耗费成本，提高工作效率。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本分类方法、装置、计算机设备及存储介质。

背景技术

文本分类是自然语言处理领域中最基础也是最常用的任务，它的目标是将一段文本分类到某个特定的类别体系中，为其打上类别的标签，主要的应用场景包括文章主题分类、对话意图分类、情感分类、观点挖掘、垃圾邮件过滤等。文本分类场景下，文本的长度能够影响到文本分类的难度和性能，而短文本因为其包含的语义信息有限而成为文本分类的难点，目前常见的短文本包括微博、tweets、聊天对话、文章标题、短信等。

现有一种短文本分类方法，通过手工处理非结构化的文本信息，从中抽取文本特征信息，例如常用的词频-逆文档频率(tf-idf)信息，从文本中提取结构化的特征后再利用传统的机器学习方法进行FastText模型训练，以获得文本分类模型，达到文本的目的。

然而，传统的短文本分类方法普遍效率较低，结构化特征的手工抽取需要本领域的专家参与，需要耗费大量的人力参与到前期的特征工程，从而导致耗费成本过高，工作效率较低。

发明内容

本申请实施例的目的在于提出一种基于词嵌入向量技术的文本分类方法，旨在解决传统的短文本分类方法普遍效率较低，耗费成本过高，工作效率较低的问题。

为了解决上述技术问题，本申请实施例提供一种基于词嵌入向量技术的文本分类方法，采用了如下所述的技术方案：

接收用户终端发送的文本分类请求，所述文本分类请求至少携带有原始文本数据；

响应所述文本分类请求，对所述原始文本数据进行映射操作，获取单元向量数据；

对所述单元向量数据进行最值操作，获取最值向量数据，所述最值向量数据包括最大值向量数据以及最小值向量数据；

对所述单元向量数据以及最值向量数据进行拼接操作，获取目标文本向量；

将所述目标文本向量输入至预设的概率分布模型，获取概率预测结果；

向所述用户终端输出所述概率预测结果。

为了解决上述技术问题，本申请实施例还提供一种基于词嵌入向量技术的文本分类装置，采用了如下所述的技术方案：