[发明专利]针对网络平台发文的关键词提取方法、装置、介质及设备有效

专利信息
申请号: 202211264186.2 申请日: 2022-10-17
公开(公告)号: CN115329751B 公开(公告)日: 2023-01-17
发明(设计)人: 徐亚波;李旭日;杨禹;王俊 申请(专利权)人: 广州数说故事信息科技有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 麦小婵
地址: 510620 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 针对 网络 平台 发文 关键词 提取 方法 装置 介质 设备
【说明书】:

发明公开了一种针对网络平台发文的关键词提取方法、装置、介质及设备,所述方法包括:获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间;判断关键词对应的分析目标是否具有时间累积性质;若是,则根据文本发酵时间、标准化函数对统计量进行标准化处理,根据处理后的统计量获取分析目标对应的分析类别及其第一概率分布;若否,则根据预设分类确定分析目标对应的分析类别及其第一概率分布;根据语言模型预测文本内容在分析类别上的第二概率分布;根据第一概率分布、第二概率分布获得文本内容中的每一个词语的梯度;根据每一个词语的梯度获取关键词的提取结果。采用本发明的技术方案能够提高关键词提取的准确性。

技术领域

本发明涉及互联网大数据处理技术领域,尤其涉及一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备。

背景技术

针对网络平台博主的发文内容进行关键词提取,是一项文本分析方面的重要技术,该技术本身是通过对发文内容进行统计分析,计算词语的出现频率,或者计算词组之间的共现频率,来提取发文中的重要关键词。

但是,现有的关键词提取技术,在数据收集以及针对不同分析目标的关键词提取方面,还存在两个未解决的问题;其中,第一个问题是:在数据收集阶段,现有的数据获取途径无法保证不同的发文具有相同的文本发酵时间(文本发酵时间由文本收集时间减去文本发布时间获得),这就导致了在一些具有时间累积性质的统计量(即受时间影响的统计量,如发文的评论数等)的获取方面,存在数据的非对齐现象,进而容易导致在以一些具有时间累积性质的分析对象为分析目标(即受时间影响的分析目标,如发文的互动量等)时,关键词提取过程中会产生目标统计量收集不对称的问题,从而影响关键词提取的准确性;第二个问题是:当关键词对应的分析目标发生变化时,如以情感倾向为分析目标提取关键词,变成以发文互动量为分析目标提取关键词,现有技术无法适应这种切换,同样会影响关键词提取的准确性。

发明内容

本发明实施例的目的在于,提供一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备,能够解决在分析目标具有时间累积性质的情况下的统计量收集不对称的问题,并且能够适用于不同的分析目标切换,从而提高关键词提取的准确性。

为了实现上述目的,本发明实施例提供了一种针对网络平台发文的关键词提取方法,包括:

获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间;

判断关键词对应的分析目标是否具有时间累积性质;

若是,则基于所述文本发酵时间,根据预设的标准化函数对所述统计量进行标准化处理,根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布;若否,则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布;

根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布;

基于所述第一概率分布和所述第二概率分布,利用反向传播获得所述文本内容中的每一个词语的梯度;

根据所述每一个词语的梯度,获取在所述分析目标下的关键词的提取结果;

所述基于所述文本发酵时间,根据预设的标准化函数对所述统计量进行标准化处理,具体包括:

选择N个标准化函数及其参数取值范围;其中,N≥2,所述N个标准化函数为连续型概率密度函数,且满足概率密度随时间先增后减的趋势;

通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值,并将所述最佳标准化函数及其最佳参数取值作为所述预设的标准化函数;

基于所述文本发酵时间,根据所述最佳标准化函数及其最佳参数取值对所述统计量进行标准化处理,获得所述处理后的统计量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数说故事信息科技有限公司,未经广州数说故事信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211264186.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top