[发明专利]一种文本分类方法、系统、设备及介质有效

申请号：	202110754670.2	申请日：	2021-07-05
公开（公告）号：	CN113254653B	公开（公告）日：	2021-12-21
发明（设计）人：	姚娟娟;钟南山	申请（专利权）人：	明品云（北京）数据科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	上海汉之律师事务所 31378	代理人：	冯华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本分类方法、系统、设备及介质，可以将准备存储至服务器或存储器中的文本数据作为待分类文本，然后再将待分类文本输入至预先生成的文本分类模型中，得到待分类文本的特征向量；同时，获取初始文本类别的中心点特征向量，并计算两个特征向量的相似度，然后判断计算出的相似度是否大于或等于第一阈值；若大于或等于第一阈值，则将待分类文本分类至初始文本类别中；若小于第一阈值，则新建一个文本类别，并将待分类文本分类至新建的文本类别。本发明改变了现有技术中的文本数据查找方式，能够减少从服务器或存储器中寻找对应文本数据的时间，提高文本数据的查找效率。

技术领域

本发明涉及数据识别技术领域，特别是涉及一种文本分类方法、系统、设备及介质。

背景技术

目前，随着通信技术的发展，越来越多的单位或个人改变了某些文本数据的记录方式，选择将某些文本数据由线下记录改为线上记录，然后将在线上形成的文本数据存储至指定的服务器或存储器中。初始状态下，这些单位或个人在线上产生的文本数据量较少，所以，有需求的人员从服务器或存储器中寻找对应的文本数据时，所需要的时间较短。但是，随着时间的增长，这些单位或个人在线上形成的文本数据会逐渐增多，导致后期有需求的人员再从指定的服务器或存储器中寻找对应的文本数据时，不仅会花费大量的时间来寻找，而且寻找出的文本数据也可能与想要的不一致；并且，对于某些重要的文本数据，若将过半的时间都花费在寻找文本数据上，则可能会因为寻找时间过长，导致找到文本数据后，错过了对应的使用时间。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种文本分类方法、系统、设备及介质，用于解决现有技术中寻找文本数据时花费时间长的问题。

为实现上述目的及其他相关目的，本发明提供一种文本分类方法，包括以下步骤：

获取待分类文本；

将所述待分类文本输入至预先生成的文本分类模型中，获取所述待分类文本的特征向量，记为第一特征向量；

获取初始文本类别的中心点特征向量，记为第二特征向量；

计算所述第一特征向量与所述第二特征向量的相似度，并判断所述相似度是否大于或等于第一阈值；

若大于或等于第一阈值，则将所述待分类文本分类至所述初始文本类别中形成第一文本类别，并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量；

若小于第一阈值，则新建一个第二文本类别，并将所述待分类文本分类至新建的第二文本类别中，以及将所述第一特征向量作为所述第二文本类别的中心点特征向量。

可选地，生成所述文本分类模型的过程包括：

按照预设的文本提取规则从文本数据集中提取多个字符；

对提取出的多个字符进行合并或拆分，生成训练语料；