[发明专利]文本关键词的挖掘方法及装置、存储介质、计算机设备在审
| 申请号: | 202111433229.0 | 申请日: | 2021-11-29 |
| 公开(公告)号: | CN114064793A | 公开(公告)日: | 2022-02-18 |
| 发明(设计)人: | 刘一鹏 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
| 主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/31;G06F16/33;G06F16/38 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 刘敏 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 关键词 挖掘 方法 装置 存储 介质 计算机 设备 | ||
本申请公开了一种文本关键词的挖掘方法及装置、存储介质、计算机设备,该方法包括:从关键词树中确定目标待挖掘父节点,并基于所述关键词树确定所述目标待挖掘父节点对应的目标路径,其中,所述关键词树包括关键词节点,所述关键词节点包括根节点,所述目标路径包括从所述根节点至所述目标待挖掘父节点的全部关键词节点;基于所述目标路径,从待挖掘文本数据中确定与所述目标路径匹配的目标文本数据,并基于所述目标文本数据确定新增关键词节点;将所述新增关键词节点作为所述目标待挖掘父节点的子节点,更新所述关键词树。本申请能够大大提升文本关键词的挖掘效率、减少后期的维护成本。
技术领域
本申请涉及计算机技术领域,尤其是涉及到一种文本关键词的挖掘方法及装置、存储介质、计算机设备。
背景技术
随着计算机技术的广泛应用,大数据时代已经来临。大数据技术的使用会产生大量的文本数据。为了能够方便理解和利用这些文本数据,通常会使用文本关键词来帮助表示、索引、共享、检索、分类、聚类这些文本数据。然而,文本数据种类繁多、变化多样,固定的文本关键词势必会影响对海量文本数据的理解和利用,因而,如何快速、准确地从海量数据中挖掘文本关键词变得异常重要。
现有技术中,通常对文本数据采取逐个探索关键词的方式,这样不仅使得文本关键词的挖掘效率低下,此外也没有考虑关键词和关键词之间、关键词组合和关键词组合之间的关联性,且零散的关键词以及关键词组合不便于后续维护。
发明内容
有鉴于此,本申请提供了一种文本关键词的挖掘方法及装置、存储介质、计算机设备,不仅能够考虑关键词和关键词、关键词组合和关键词组合之间的关联性,同时将所有关键词放在一个关键词树中方便后续的维护和迭代,能够大大提升文本关键词的挖掘效率、减少后期的维护成本。
根据本申请的一个方面,提供了一种文本关键词的挖掘方法,包括:
从关键词树中确定目标待挖掘父节点,并基于所述关键词树确定所述目标待挖掘父节点对应的目标路径,其中,所述关键词树包括关键词节点,所述关键词节点包括根节点,所述目标路径包括从所述根节点至所述目标待挖掘父节点的全部关键词节点;
基于所述目标路径,从待挖掘文本数据中确定与所述目标路径匹配的目标文本数据,并基于所述目标文本数据确定新增关键词节点;
将所述新增关键词节点作为所述目标待挖掘父节点的子节点,更新所述关键词树。
可选地,所述基于所述目标路径,从待挖掘文本数据中确定与所述目标路径匹配的目标文本数据,具体包括:
当所述目标待挖掘父节点不存在子节点时,从所述待挖掘文本数据中确定与所述目标路径匹配的文本数据,作为所述目标文本数据;
当所述目标待挖掘父节点存在子节点时,基于所述目标待挖掘父节点对应的子节点,确定所述子节点对应的目标子节点路径,从所述待挖掘文本数据中确定与所述目标路径匹配且不与所述目标子节点路径匹配的文本数据,作为所述目标文本数据。
可选地,所述基于所述目标文本数据确定新增关键词节点,具体包括:
从所述目标文本数据中确定出现次数大于预设次数阈值且不包含在所述目标路径中的关键词节点,并将任一所述关键词节点作为待验证关键词节点;
基于所述待验证关键词节点以及所述目标路径确定待验证路径,从所述待挖掘文本数据中确定与所述待验证路径匹配的第一文本数据,并依据所述待挖掘文本数据以及所述第一文本数据,计算所述待验证路径对应的第一文本覆盖率;
从所述待挖掘文本数据中确定与所述目标路径匹配的第二文本数据,并依据所述待挖掘文本数据以及所述第二文本数据,计算所述目标路径对应的第二文本覆盖率;
基于所述第一文本覆盖率以及所述第二文本覆盖率,确定目标比值,并当所述目标比值大于预设比值阈值时,将所述待验证关键词节点作为新增关键词节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111433229.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于供暖和发电的分布式能源利用系统
- 下一篇:计量检定人员实操考核系统





