[发明专利]基于远程学习的关键词提取方法、系统、设备及存储介质有效
申请号: | 202110604448.4 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113326350B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 曹聪慧;王志铭;齐卉;贾茜;黄爱蓉 | 申请(专利权)人: | 江汉大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 丁倩 |
地址: | 430056 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 远程 学习 关键词 提取 方法 系统 设备 存储 介质 | ||
1.一种基于远程学习的关键词提取方法,其特征在于:所述方法包括: 基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;对目标文件进行关键词提取,得到目标集;将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词,目标关键词是指当前目标集中进行搜索筛选的关键词;知识库是指开放的网络搜索资源;搜索结果是指在开放网络搜索资源上搜索到的词条数据;匹配度是指目标关键词与对应词条数据的数组元素的相似度;阈值是指针对匹配度设置的筛选值;有效词是指满足筛选要求的关键词。
2.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:所述主题生成模型采用 LDA 算法,将所述 LDA 算法应用于所述初始文本,所述基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件,包括:
从狄利克雷 α 超参数分布中提取所述初始文本的主题分布向量,从基于多项分布的所述主题分布向量中提取生成所述初始文本中每个词语对应的主题,形成文本-主题矩阵;
从狄利克雷 β 超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的所述词语分布向量中提取生成词语,形成主题-词语矩阵,并将所述主题-词语矩阵中词语的集合作为词典文件。
3.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件,包括:
将所述词典文件中的预设停用词删除,并采用中文分词算法对所述词典文件进行数据清洗。
4.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:对目标文件进行关键词提取,得到目标集,包括:
将所述目标文件存储至事务数据库,采用 FP-growth 算法对目标文件进行关键词提取,将提取得到的关键词集合作为目标集。
5.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,包括:
将目标关键词通过预设的搜索算法在知识库中进行搜索;
根据搜索,获取知识库搜索页面的词条数据,并将所述词条数据作为搜索结果。
6.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:所述基于所述目标关键词的字符串长度计算搜索结果的匹配度,计算公式如下:
其中,Str 表示字符串 String1 和字符串 String2 之间共同拥有的最长子串;Size(Str)表示字符串 String1 和字符串 String2 之间最大子串的长度; Size(String1)表示字符串 String1 的长度,size(String2)表示字符串 String2 的长度;字符串 String1表示目标关键词的字符串;String2 表示与目标关键词对应的搜索结果的字符串。
7.根据权利要求 5 所述的基于远程学习的关键词提取方法,其特征在于:在基于所述目标关键词的字符串长度计算搜索结果的匹配度之前,所述方法还包括:
将所述目标集中的当前目标关键词和词条数据进行完全匹配,若完全一致,则将当前目标关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;
若不完全一致,则将当前目标关键词的长度和词条数据的数组元素的长度进行比较,若长度相同,则比较当前目标关键词的字和词条数据的数组元素的字是否相同,若字相同且字的顺序一致,则将当前关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;若当前目标关键词和词条数据的数组元素的长度、字或字的顺序不同,则进入计算搜索结果的匹配度的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江汉大学,未经江汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110604448.4/1.html,转载请声明来源钻瓜专利网。