[发明专利]一种文本分类方法、装置及电子设备有效

申请号：	201710828217.5	申请日：	2017-09-14
公开（公告）号：	CN107766426B	公开（公告）日：	2020-05-22
发明（设计）人：	苏海波;刘译璟;梁培明;徐岱;高体伟	申请（专利权）人：	北京百分点信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	许志勇
地址：	100081 北京市朝阳区北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本分类方法、装置及电子设备，所述方法包括：通过无监督方法训练词向量模型；根据词向量模型，确定在文本中提取出的关键词的词向量；根据所述关键词的词向量，确定所述文本的文本向量；计算所述文本向量与预设类目的向量之间的相似度；将相似度符合预设条件的类目作为所述文本的类目。本发明实现了对文本的无监督方式分类，避免大工作量的人工标注数据，降低成本。

技术领域

本申请涉及人工智能领域，尤其涉及一种文本分类方法、装置及电子设备。

背景技术

传统互联网和移动互联网大部分以文本形式传递信息，这些信息包括可以从互联网直接获取的信息，如从网页中获取的资讯、新闻等各种内容，还包括通过微信、微博、门户网站、论坛、新闻app等方式获取的信息。

互联网的原始信息是杂乱无章的，通过数据挖掘可以将非结构化数据转换成结构化数据，并在整理后上传至互联网，因此，用户从互联网上所看到的信息一般是整理后的信息。

文本分类是数据挖掘中最重要的一环，其可以将无序的数据重新组织起来，方便用户浏览。比如，对于门户网站而言，其有自己的分类体系，例如，网站首页上会有大的分类：军事、体育、科技、教育、美食、财经、房产、汽车、游戏等，体育类别下又可以划分篮球、足球、羽毛球等，进入篮球类别，又可以分为NBA、CBA等。

传统的文本分类方法中，需要人工标注数据，然后根据机器学习算法(比如支持向量机、逻辑回归、朴素贝叶斯、决策树、神经网络等)，去训练模型。但是人工标注工作量很大，如果客户有100个类目，每个类目准备1000条标注数据，那么需要人工标注10万条数据。而且一旦类目体系调整后，则需要重新标注数据并训练模型，将极大地增加人工的工作量，提升成本。

发明内容

本申请实施例提供一种文本分类方法，采用该方法，能够自动对输入的文本进行分类。

本申请实施例还提供一种文本分类装置，采用该装置，能够自动对输入的文本进行分类。

本申请实施例还提供一种电子设备，该电子设备能够对输入的文本自动分类。

本申请实施例采用下述技术方案：

一种文本分类方法，所述方法包括：

通过无监督方法训练词向量模型；

根据所述词向量模型，确定在所述文本中提取出的关键词的词向量；

根据所述关键词的词向量，确定所述文本的文本向量；

计算所述文本向量与预设类目的向量之间的相似度；

将相似度符合预设条件的类目作为所述文本的类目。

一种文本分类装置，所述装置包括：