[发明专利]基于知识图谱的文本聚类方法、装置及可读存储介质有效

申请号：	201811323010.3	申请日：	2018-11-07
公开（公告）号：	CN109543034B	公开（公告）日：	2021-07-16
发明（设计）人：	任江涛;麦振生	申请（专利权）人：	中山大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国;於菪珉
地址：	510275 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于知识图谱文本方法装置可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于知识图谱的文本聚类方法，包括以下步骤：获取原始文本，并确定所述原始文本的待抽取要素类型；根据所述待抽取要素类型抽取所述原始文本的文本要素；统计所述文本要素间的交互关系，并根据统计结果计算所述交互关系的归一化概率；根据所述归一化概率构建知识图谱，并根据所述知识图谱对所述原始文本进行聚类。本发明还公开了一种基于知识图谱的文本聚类装置及计算机可读存储介质。本发明通过归一化概率构建知识图谱，进而根据知识图谱对原始文本进行自动聚类，解决人工分类效率低，成本高的技术问题。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于知识图谱的文本聚类方法、装置及计算机可读介质。

背景技术

城市新闻，是一座城市里居住生活的人所产生的活动的外在表现，很大程度上反映了一个城市的精神内涵与内在规律。同时因为其公开性，使得新闻的获取成本很低。对大量新闻文本进行充分处理、分析、挖掘，找出新闻之间的关联，知晓并掌握城市的内在运作规律，对政策制定、舆情监控、城市发展规划等具有重要的现实意义。

由于新闻本身的客观性要求，导致新闻文本的离散程度较大，因此从表面上看起来没有关联。若是由相关从业人员进行分析挖掘，则需要在日常工作中耗费大量时间精力对新闻进行广度和深度上的挖掘，对从业人员的专业要求及经验积累要求较高，使得新闻分析从业成本较高。

在现有技术中，一般通过统计的方法实现对文本数据进行分类，这样导致只能获取所述文本数据中已知维数的分类结果。

发明内容

本发明的主要目的在于提供一种基于知识图谱的文本聚类方法、装置及存储介质，旨在实现根据文本内容进行深度分析，并根据分析结果进行自动聚类。

为实现上述目的，本发明提供一种基于知识图谱的文本聚类方法，所述基于知识图谱的文本聚类方法包括以下步骤：

获取原始文本，并确定所述原始文本的待抽取要素类型；

根据所述待抽取要素类型抽取所述原始文本的文本要素；

统计所述文本要素间的交互关系，并根据统计结果计算所述交互关系的归一化概率；