[发明专利]一种文本分类方法、系统、设备及介质有效
申请号: | 202110754670.2 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113254653B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 姚娟娟;钟南山 | 申请(专利权)人: | 明品云(北京)数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 102400 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 系统 设备 介质 | ||
本发明提供一种文本分类方法、系统、设备及介质,可以将准备存储至服务器或存储器中的文本数据作为待分类文本,然后再将待分类文本输入至预先生成的文本分类模型中,得到待分类文本的特征向量;同时,获取初始文本类别的中心点特征向量,并计算两个特征向量的相似度,然后判断计算出的相似度是否大于或等于第一阈值;若大于或等于第一阈值,则将待分类文本分类至初始文本类别中;若小于第一阈值,则新建一个文本类别,并将待分类文本分类至新建的文本类别。本发明改变了现有技术中的文本数据查找方式,能够减少从服务器或存储器中寻找对应文本数据的时间,提高文本数据的查找效率。
技术领域
本发明涉及数据识别技术领域,特别是涉及一种文本分类方法、系统、设备及介质。
背景技术
目前,随着通信技术的发展,越来越多的单位或个人改变了某些文本数据的记录方式,选择将某些文本数据由线下记录改为线上记录,然后将在线上形成的文本数据存储至指定的服务器或存储器中。初始状态下,这些单位或个人在线上产生的文本数据量较少,所以,有需求的人员从服务器或存储器中寻找对应的文本数据时,所需要的时间较短。但是,随着时间的增长,这些单位或个人在线上形成的文本数据会逐渐增多,导致后期有需求的人员再从指定的服务器或存储器中寻找对应的文本数据时,不仅会花费大量的时间来寻找,而且寻找出的文本数据也可能与想要的不一致;并且,对于某些重要的文本数据,若将过半的时间都花费在寻找文本数据上,则可能会因为寻找时间过长,导致找到文本数据后,错过了对应的使用时间。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文本分类方法、系统、设备及介质,用于解决现有技术中寻找文本数据时花费时间长的问题。
为实现上述目的及其他相关目的,本发明提供一种文本分类方法,包括以下步骤:
获取待分类文本;
将所述待分类文本输入至预先生成的文本分类模型中,获取所述待分类文本的特征向量,记为第一特征向量;
获取初始文本类别的中心点特征向量,记为第二特征向量;
计算所述第一特征向量与所述第二特征向量的相似度,并判断所述相似度是否大于或等于第一阈值;
若大于或等于第一阈值,则将所述待分类文本分类至所述初始文本类别中形成第一文本类别,并根据所述第一特征向量和所述第二特征向量更新所述第一文本类别的中心点特征向量;
若小于第一阈值,则新建一个第二文本类别,并将所述待分类文本分类至新建的第二文本类别中,以及将所述第一特征向量作为所述第二文本类别的中心点特征向量。
可选地,生成所述文本分类模型的过程包括:
按照预设的文本提取规则从文本数据集中提取多个字符;
对提取出的多个字符进行合并或拆分,生成训练语料;
从所述训练语料中获取关键词,并根据所述关键词对所述训练语料进行类别标注;
利用类别标注后的训练语料对一个或多个深度神经网络进行训练,生成所述文本分类模型。
可选地,生成训练语料的过程包括:
获取训练文本数据,并对所述训练文本数据进行版式分析、文本检测和文本识别,生成文本数据集;
从目标字典中获取标准字符集合,并计算所述文本数据集中每个字符与所述标准字符集合中每个字符的编辑距离;
获取与所述文本数据集中每个字符编辑距离最近的标准字符,记为待提取字符;
获取所述文本数据集中每个字符在所述训练文本数据中的位置,并将所获取的位置与对应的待提取字符进行关联,形成文本提取规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明品云(北京)数据科技有限公司,未经明品云(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110754670.2/2.html,转载请声明来源钻瓜专利网。