[发明专利]基于知识图谱的文本聚类方法、装置及可读存储介质有效
申请号: | 201811323010.3 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109543034B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 任江涛;麦振生 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国;於菪珉 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 文本 方法 装置 可读 存储 介质 | ||
本发明公开了一种基于知识图谱的文本聚类方法,包括以下步骤:获取原始文本,并确定所述原始文本的待抽取要素类型;根据所述待抽取要素类型抽取所述原始文本的文本要素;统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。本发明还公开了一种基于知识图谱的文本聚类装置及计算机可读存储介质。本发明通过归一化概率构建知识图谱,进而根据知识图谱对原始文本进行自动聚类,解决人工分类效率低,成本高的技术问题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于知识图谱的文本聚类方法、装置及计算机可读介质。
背景技术
城市新闻,是一座城市里居住生活的人所产生的活动的外在表现,很大程度上反映了一个城市的精神内涵与内在规律。同时因为其公开性,使得新闻的获取成本很低。对大量新闻文本进行充分处理、分析、挖掘,找出新闻之间的关联,知晓并掌握城市的内在运作规律,对政策制定、舆情监控、城市发展规划等具有重要的现实意义。
由于新闻本身的客观性要求,导致新闻文本的离散程度较大,因此从表面上看起来没有关联。若是由相关从业人员进行分析挖掘,则需要在日常工作中耗费大量时间精力对新闻进行广度和深度上的挖掘,对从业人员的专业要求及经验积累要求较高,使得新闻分析从业成本较高。
在现有技术中,一般通过统计的方法实现对文本数据进行分类,这样导致只能获取所述文本数据中已知维数的分类结果。
发明内容
本发明的主要目的在于提供一种基于知识图谱的文本聚类方法、装置及存储介质,旨在实现根据文本内容进行深度分析,并根据分析结果进行自动聚类。
为实现上述目的,本发明提供一种基于知识图谱的文本聚类方法,所述基于知识图谱的文本聚类方法包括以下步骤:
获取原始文本,并确定所述原始文本的待抽取要素类型;
根据所述待抽取要素类型抽取所述原始文本的文本要素;
统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
优选地,所述原始文本为新闻文本,所述待抽取要素类型涉及地点、涉及机构、涉及人物、涉及时间及/或新闻主题。
优选地,所述根据所述待抽取要素类型抽取所述原始文本的文本要素的步骤包括:
通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;
通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;
通过正则匹配抽取所述新闻文本中的所述涉及时间;
通过调用分类算法确定所述新闻文本的新闻主题。
优选地,所述统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率的步骤包括:
获取所述文本要素间的交互关系,并统计所述交互关系的出现次数;
根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。
优选地,所述根据所述交互关系的出现次数计算所述交互关系的所述归一化概率的步骤包括:
根据所述交互关系的出现次数确定与预设文本要素关联的交互关系总数,及预设交互关系总数;
根据所述与预设文本要素关联的交互关系总数,及所述预设交互关系总数计算所述交互关系的所述归一化概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811323010.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动态异质网络演化聚类分析方法
- 下一篇:一种针对商品评价进行聚类分析的方法