[发明专利]一种基于特征扩展的短文本分类方法、装置以及设备有效
申请号: | 201910319576.7 | 申请日: | 2019-04-19 |
公开(公告)号: | CN109960730B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 黄梦婷;张灵 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 扩展 文本 分类 方法 装置 以及 设备 | ||
本发明公开了一种基于特征扩展的短文本分类方法、装置、设备及计算机可读存储介质,包括:提取待处理短文本的文本特征后,检测文本特征中是否包含有不存在于预建的特征空间内且不是词聚类指示矩阵经过降维处理后被删除的特征;词聚类指示矩阵为预先对短文本训练集的关系矩阵进行非负矩阵分解后得到的;特征空间为预先对词聚类指示矩阵进行降维后得到的;若文本特征中不存在待更新特征,则根据特征空间确定待处理短文本的最相关特征;依据最相关特征对文本特征进行扩展;将扩展后的文本特征输入预设分类器中,输出待处理短文本的分类结果。本发明所提供的方法、装置、设备及计算机可读存储介质,根据短文本单词间的相关性实现了短文本的特征扩展。
技术领域
本发明涉及语义识别技术领域,特别是涉及一种基于特征扩展的短文本分类方法、装置、设备以及计算机可读存储介质。
背景技术
随着大数据时代的到来,互联网上的信息呈爆炸式增长,用户在各种媒体平台上生成的数据占据了网络信息资源的主体。短文本作为一种便捷的信息传输形式,因其更新速度快、易于扩散的特点,使互联网中积累了海量的短文本数据。由于短文本存在字数限制和编写不规范的特点,使得提取的特征稀疏,因此,解决上述问题成为短文本研究领域的一个热点。
短文本特征扩展解决是短文本特征稀疏的问题,从而提高短文本分类的准确率。而短文本分类是许多应用的关键步骤,例如,信息检索,问答系统等。
考虑到短文本特征的稀疏性,传统的词袋(BOW)表示不再是分析短文本最合适的模型。处理稀疏性的一种解决方案是通过Web搜索、词汇数据库或机器翻译提供的语义信息来扩展短文本特征,称为基于外部资源的方法。然而基于外部资源的特征扩展方法在特征扩展过程耗时且分类效果依赖外部资源完整性,并且针对一些专业性很强或者语言比较特殊的短文本时,这些预定义的主题和分类可能不再适用。
另一种解决稀疏性问题的方法是使用隐藏在当前短文本上下文中的规则或统计信息来扩展特征,称为基于自身资源的方法。因此有研究者提出了一种语言无关语义(LIS)内核,它能够有效地计算短文本文档之间的相似性,而无需使用语法标签和词法数据库。也有研究者设计了一种有效的融合相似度量的方法,在未标记数据集中搜索与每个真实类中心具有最高相似性的文本,赋予其与类中心相同的类标签,直至标记所有短文本。而现有的基于自身资源的特征扩展方法忽略了长度有限的短文本内单词之间的联系,即忽略了短文本中单词的相关性,可能会导致短文本分类不准确。
综上所述可以看出,如何在不借助外部资源的情况下,根据短文本单词之间的相关性实现短文本的特征扩展是目前有待解决的问题。
发明内容
本发明的目的是提供一种基于特征扩展的短文本分类方法、装置、设备以及计算机可读存储介质,以解决现有技术中短文本特征扩展的方法忽略了短文本单词之间的相关性的问题。
为解决上述技术问题,本发明提供一种基于特征扩展的短文本分类方法,包括:对待处理短文本进行预处理后,提取所述待处理短文本的文本特征;检测所述文本特征中是否包含有待更新特征;其中,所述待更新特征为不存在于预先构建的特征空间内且不是词聚类指示矩阵经过降维处理后被删除的特征;所述词聚类指示矩阵为预先对短文本训练集的关系矩阵进行非负矩阵分解后得到的;所述特征空间为预先对所述词聚类指示矩阵进行降维处理后得到的;若所述文本特征中不存在所述待更新特征,则根据所述特征空间确定所述待处理短文本的最相关特征;依据所述最相关特征选择扩展特征,将所述扩展特征扩充至所述文本特征中,实现对所述待处理短文本的特征扩展;完成所述待处理短文本的特征扩展后,利用预设分类器算法对所述待处理短文本进行分类识别,以便获得所述待处理短文本的分类结果。
优选地,所述检测所述文本特征中是否包含有待更新特征后还包括:
若所述文本特征中包含有所述待更新特征,则将所述文本特征划分为a个待更新特征和在所述特征空间内已存在的q个已知特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910319576.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:HTTP恶意流量的检测方法及系统
- 下一篇:一种数据处理方法、设备及存储介质