[发明专利]文本分类方法、装置、介质及电子设备在审
申请号: | 201910435075.5 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110334209A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/338;G06F17/27 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 多维 维度 机器学习模型 待分类文本 关键词分类 分类结果 文本分类 电子设备 应用技术领域 输入关键词 机器学习 计算负荷 词查找 字典 分类 | ||
本公开是关于一种文本分类方法、装置、介质及电子设备,属于机器学习应用技术领域,该方法包括:按照待分类文本中的词查找多维词向量字典,获得每个词对应的多维词向量;获取所述待分类文本中的各关键词的多维词向量;获取所述每个词对应的多维词向量中预定维度的元素值,按照每个词的顺序输入预定维度机器学习模型,得到预定维度分类结果;将所述各关键词的多维词向量,按照每个词的顺序输入关键词机器学习模型,得到关键词分类结果;基于所述预定维度分类结果和所述关键词分类结果,确定所述待分类文本的分类结果。本公开通过机器学习模型,结合关键词分类和预定维度分类,有效降低了计算负荷,同时有效提高了文本分类准确性。
技术领域
本公开涉及机器学习应用技术领域,具体而言,涉及一种文本分类方法、装置、介质及电子设备。
背景技术
文本分类就是用电脑对文本集按照一定的分类体系或标准进行分类标记。
目前,文本分类通常利用神经网络搭建的深度学习模型,在将文本中的词表示成数值型的词向量后,将词向量整合为句向量,输入用于文本分类的深度学习模型,进而对文本进行分类。传统的分类方法中,针对整段文本的句向量进行循环计算,计算负荷大,同时由于信息量极大导致文本分类的准确率有限。
因此,需要提供一种新的文本分类方法、装置、介质及电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本分类方案,进而至少在一定程度上在降低计算负荷的情况下,自动、准确地将文本分类。
根据本公开的一个方面,提供一种文本分类方法,包括:
按照待分类文本中的词查找多维词向量字典,获得每个词对应的多维词向量;
从所述每个词对应的多维词向量中,获取所述待分类文本中的各关键词的多维词向量;
获取所述每个词对应的多维词向量中预定维度的元素值,按照每个词在待分类文本中的顺序输入预定维度机器学习模型,得到所述待分类文本的预定维度分类结果;
将所述各关键词的多维词向量,按照每个词在待分类文本中的顺序输入关键词机器学习模型,得到所述待分类文本的关键词分类结果;
基于所述预定维度分类结果和所述关键词分类结果,确定所述待分类文本的分类结果。
在本公开的一种示例性实施例中,所述按照待分类文本中的词查找多维词向量字典,获得每个词对应的多维词向量,包括:
将所述待分类文本分词,得到组成所述待分类文本的每个词;
从所述多维词向量字典中查找所述每个词对应的多维词向量。
在本公开的一种示例性实施例中,所述从所述每个词对应的多维词向量中,获取所述待分类文本中的各关键词的多维词向量,包括:
确定所述待分类文本中的关键词;
从所述每个词对应的多维词向量中,获取所述关键词的多维词向量。
在本公开的一种示例性实施例中,所述确定所述待分类文本中的关键词,包括:
计算所述待分类文本中的每个词出现的次数;
将出现次数最多的预定数目个词,确定为关键词。
在本公开的一种示例性实施例中,所述确定所述待分类文本中的关键词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435075.5/2.html,转载请声明来源钻瓜专利网。