[发明专利]基于远程学习的关键词提取方法、系统、设备及存储介质有效
申请号: | 202110604448.4 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113326350B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 曹聪慧;王志铭;齐卉;贾茜;黄爱蓉 | 申请(专利权)人: | 江汉大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 丁倩 |
地址: | 430056 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 远程 学习 关键词 提取 方法 系统 设备 存储 介质 | ||
本发明涉及一种基于远程学习的关键词提取方法、系统、设备及存储介质,其方法包括基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件;对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件;对目标文件进行关键词提取,得到目标集;将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。本申请利用资源丰富的知识库对初步提取后的关键词进行搜索,并利用匹配度算法筛选有效关键词,从而有助于提高关键词的精准度。
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种基于远程学习的关键词提取方法、系统、设备及存储介质。
背景技术
目前,互联网信息存量丰富,比如文本、图片以及录像等数据数量日益增长,其中文本形式仍然是大部分信息的表现形式,文本信息内容丰富,如何准确高效地提取出对用户有用的信息成为亟需要解决的问题。目前主要是通过文本聚类、关键词提取、自动文摘及信息搜索等自然语言技术对文本信息进行处理,再将其直观地呈现给用户。
就处理算法而言,主要有基于机器学习的算法和基于统计学的算法,基于机器学习方法的算法,需要大量的训练语料,要耗费大量的人力进行标注;基于统计学的算法虽然不似机器学习需要大量人工标注工序,但基于统计学的算法主要是考虑的理想状态下的模型,在实际操作中关键词提取的结果并不理想,因此,本发明人认为现有基于统计学算法的文本关键词提取,在其提取精度上还存在一定问题。
发明内容
为了克服现有统计学算法提取文本关键词时存在提取精度不高的问题,本申请提供一种基于远程学习的关键词提取方法、系统、设备及存储介质。
第一方面,本申请提供了一种基于远程学习的关键词提取方法,该方法包括:
基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;
对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;
对目标文件进行关键词提取,得到目标集;
将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词。
可选的,所述主题生成模型采用LDA算法,将所述LDA算法应用于所述初始文本,所述基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件,包括:
从狄利克雷α超参数分布中提取所述初始文本的主题分布向量,从基于多项分布的所述主题分布向量中提取生成所述初始文本中每个词语对应的主题,形成文本-主题矩阵;
从狄利克雷β超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的所述词语分布向量中提取生成词语,形成主题-词语矩阵,并将所述主题-词语矩阵中词语的集合作为词典文件。
可选的,对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件,包括:
将所述词典文件中的预设停用词删除,并采用中文分词算法对所述词典文件进行数据清洗。
可选的,对目标文件进行关键词提取,得到目标集,包括:
将所述目标文件存储至事务数据库,采用FP-growth算法对目标文件进行关键词提取,将提取得到的关键词集合作为目标集。
可选的,将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,包括:
将目标关键词通过预设的搜索算法在知识库中进行搜索;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江汉大学,未经江汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110604448.4/2.html,转载请声明来源钻瓜专利网。