[发明专利]突发事件报警方法、装置、系统、电子设备及存储介质有效
申请号: | 201910708734.8 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110457595B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 徐灿;李铮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06F16/35;G06F40/289;G06Q50/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘;李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突发事件 报警 方法 装置 系统 电子设备 存储 介质 | ||
本申请涉及计算机技术领域,公开了一种突发事件报警方法、装置、系统、电子设备及存储介质,该方法包括:对待处理的文本数据进行分词处理,得到若干个候选词;针对每个候选词,根据当前时间窗口内产生的文本数据,确定候选词的第一占比值,根据预设数量个历史时间窗口内产生的文本数据,确定候选词的预测占比值和波动性特征值,根据候选词的第一占比值、预测占比值和波动性特征值,确定候选词的波动性得分,波动性得分用于表征候选词的第一占比值相对于预测占比值的增长率;根据波动性得分从高到低的排序,选择K个候选词确定出至少一个突发事件,对确定出的至少一个突发事件进行报警处理。本申请提供的技术方案能够提高突发事件的报警准确率。
技术领域
本申请计算机技术,特别涉及数据处理技术,尤其涉及一种突发事件报警方法、装置、系统、电子设备及存储介质。
背景技术
随着论坛、贴吧、社交网络等网络交流渠道的日益流行,越来越多的人通过网络发表各种观点言论,发布问题、回答问题等,基于这些UGC(User Generated Content,用户生成内容)数据可以挖掘出当前正在发生的各种突发事件,可以应用于突发热点新闻发现及追踪、实时决策、灾难预警、故障报警等多种领域。
现有的检测突发事件的方法通常是,基于UGC数据确定出候选词,统计候选词在多个历史时间窗口内的词频,然后计算这多个词频的平均值,作为候选词在当前时间窗口内的预测词频,统计候选词在当前时间窗口内的真实词频,若预测词频与真实词频的差值超过设定的异常阈值,则确定该候选词为异常词,基于异常词确定出突发事件。
现有通过计算平均值预测词频的方法,仅仅考虑了当前时间窗口的情况,影响了异常词检测和突发事件报警的准确率。
发明内容
本申请实施例提供一种突发事件报警方法、装置、系统、电子设备及存储介质,以提高突发事件报警的准确率。
一方面,本申请一实施例提供了一种突发事件报警方法,包括:
获取待处理的文本数据,所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据;
对所述待处理的文本数据进行分词处理,得到若干个候选词;
针对每个候选词,根据所述当前时间窗口内产生的文本数据,确定所述候选词的第一占比值,所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比;
针对每个候选词,根据预设数量个历史时间窗口内产生的文本数据,确定所述候选词的预测占比值和波动性特征值;
针对每个候选词,根据所述候选词的第一占比值、预测占比值和波动性特征值,确定所述候选词的波动性得分,所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率;
根据波动性得分从高到低的排序,选择K个候选词确定出至少一个突发事件;
对确定出的至少一个突发事件进行报警处理。
可选地,所述根据所述当前时间窗口内产生的文本数据,确定所述候选词的第一占比值,具体包括:
将所述当前时间窗口内包含所述候选词的文本的数量除以所述当前时间窗口内的文本总数,得到所述候选词的第三占比值;
针对与所述候选词互为同义词的每个分词片段,将所述当前时间窗口内包含所述分词片段的文本的数量除以所述当前时间窗口内的文本总数,得到所述分词片段的第四占比值;
将所述第三占比值和所述第四占比值之和确定为所述候选词的第一占比值。
可选地,所述确定所述候选词在所述历史时间窗口内的第二占比值,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910708734.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的舆论热点预测方法
- 下一篇:一种资源推荐处理方法及装置