[发明专利]文本分类方法、装置、设备及可读存储介质有效
申请号: | 201911328004.1 | 申请日: | 2019-12-20 |
公开(公告)号: | CN110968697B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 汪鸿翔;吴飞;张浩宇;方四安;徐承 | 申请(专利权)人: | 合肥讯飞数码科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 设备 可读 存储 介质 | ||
本申请实施例公开了一种文本分类方法、装置、设备及可读存储介质,对待分类文本进行字、词、句三个层级的编码,得到待分类文本的字级向量表达、词级向量表达和句级向量表达;将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理,得到待分类文本在四元数空间的特征;至少根据待分类文本在四元数空间的特征确定待分类文本的类别。本申请实施例提供的文本分类方案,将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取,所提取的特征保持了待分类文本的字、词、句的相关性和整体性,从而提高短文本的分类准确度。
技术领域
本申请涉及自然语言处理技术领域,更具体地说,涉及一种文本分类方法、装置、设备及可读存储介质。
背景技术
文本分类是自然语言处理研究中最为广泛的任务之一,文本分类的目的是将文本分配到预先定义的某个主题类别中。
目前的文本分类方法在对长文本(如,文章)进行分类时,分类准确度较高,但对短文本(通常在100字以内)进行分类时,分类的准确度却较低。
因此,如何提高短文本的分类准确度成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种文本分类方法、装置、设备及可读存储介质,以提高短文本的分类准确度。
为了实现上述目的,现提出的方案如下:
一种文本分类,包括:
对待分类文本进行字、词、句三个层级的编码,得到所述待分类文本的字级向量表达、词级向量表达和句级向量表达;
将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理,得到所述待分类文本在所述四元数空间的特征;
至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别。
上述方法,优选的,所述待分类文本为中文文本,所述对待分类文本进行字级编码,包括:
对于所述待分类文本中的每一个字,获取该字的各个偏旁;
根据该字的各个偏旁得到该字的向量表达。
上述方法,优选的,所述将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理包括:
利用四元数卷积核对所述纯四元数空间向量表达进行四元数卷积处理,得到所述待分类文本在所述四元数空间的初始特征;
对所述待分类文本在所述四元数空间的初始特征进行降维,得到所述待分类文本在所述四元数空间的特征。
上述方法,优选的,在至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别之前,还包括:
获取所述待分类文本在实数空间的特征;
所述至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别,包括:
对所述待分类文本在所述四元数空间的特征,以及所述待分类文本在实数空间的特征进行处理,得到所述待分类文本的类别。
上述方法,优选的,所述获取所述待分类文本在实数空间的特征,包括:
获取所述待分类文本中的各个词的向量表达;
对所述待分类文本中各个词的位置进行编码,得到所述待分类文本中各个词的位置的向量表达;
对所述待分类文本中各个词的向量表达和位置的向量表达进行处理,得到所述待分类文本在实数空间的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥讯飞数码科技有限公司,未经合肥讯飞数码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911328004.1/2.html,转载请声明来源钻瓜专利网。