[发明专利]基于可伸缩表示学习的长短文本分类方法在审
申请号: | 202011230707.3 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112231482A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 汪祥;李小勇;王辉赞;朱俊星;张卫民;任开军;李金才;邓科峰;吴松;赵娟 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/194;G06K9/62 |
代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于可伸缩表示学习的长短文本分类方法,包括以下步骤:对长短文本集中的文本进行预处理,将文本集表示为特征矩阵M,M中的元素为使用TF‑IDF方法计算的对应单词的权重;将所述的特征矩阵M输入到可伸缩表示学习过程中,获得低维目标矩阵;采用所述低维目标矩阵表示的训练集对KNN分类器进行训练;利用训练好的KNN分类器用于对待分类文档进行分类。本发明方法设计了可伸缩表示学习方法,该方法保留了数据的相似关系,可扩展且易于并行化,适用于长短文本的通用分类应用,实验表明,在大规模长短文本的分类问题中本发明方法展现出较好的分类性能。 | ||
搜索关键词: | 基于 伸缩 表示 学习 长短 文本 分类 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011230707.3/,转载请声明来源钻瓜专利网。