[发明专利]文本分类的方法、话题生成的方法、装置、设备及介质有效
申请号: | 202011305385.4 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112380344B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 刘金克 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 话题 生成 装置 设备 介质 | ||
本发明涉及一种人工智能技术,揭露了一种文本分类的方法、话题生成的方法、装置、设备及介质,该方法包括:抓取网络文章,获取各篇文章对应的关键词;获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。本发明能够对文本进行准确分类。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类的方法、话题生成的方法、装置、设备及介质。
背景技术
目前,网络上每天产出大量信息,包括突发事件、事件分析、舆情预测、社会发展事件等等,信息依靠互联网实现快速传播,每个人都能快速获取到大量的信息。文本分类在信息处理中占据着重要地位,通过有效方法对信息进行准确分类,对于信息的处理具有很大的价值。传统的文本分类方法包括两种,一种是基于聚类和相似度的方法,通过计算文本的标题或摘要的相似度,把相关的文本聚类在一起,另一种是基于分类模型的方法,比如对文章等文本使用RNN、Text-CNN等算法建模,输出文本分类。
然而,上述方法都是处理的文本的序列化表征特征,能够取得一定效果,但文本包含的信息是非常多的,例如,对于某篇文章,其对另外的多篇文章存在关联关系,这种两两之间的关联关系对于该篇文章来说是相对的,能够表征该篇文章分别与另外的多篇文章的相对关联程度,而通过序列化表征特征的方法无法挖掘这种内在关系,也就无法准确分类文本,因此,对文本进行准确分类的技术有待进一步提高。
发明内容
本发明的目的在于提供一种文本分类的方法、话题生成的方法、装置、设备及介质,旨在对文本进行准确分类。
本发明提供一种文本分类的方法,包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
本发明还提供一种基于上述的文本分类的方法的话题生成的方法,所述话题生成的方法包括:
抓取网络文章,获取各篇文章对应的关键词;
获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合;
从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
本发明还提供一种文本分类的装置,包括:
抓取模块,用于抓取网络文章,获取各篇文章对应的关键词;
构建模块,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
处理模块,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305385.4/2.html,转载请声明来源钻瓜专利网。