[发明专利]突发话题检测方法及突发话题检测设备有效
申请号: | 201710433359.1 | 申请日: | 2017-06-09 |
公开(公告)号: | CN107688596B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 王健宗;黄章成;吴天博;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F40/284 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突发 话题 检测 方法 设备 | ||
1.一种突发话题检测方法,其特征在于,包括:
持续获取信息分享平台中的话题数据;
在获取到每一所述话题数据时,将所述话题数据与预设词库中的各个词语进行匹配处理,以输出多种分词结果;
将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词;
根据所述关键词,更新与所述话题数据关联的摘要信息;
对所述关键词及所述摘要信息进行展示,以使用户获知当前时刻的突发话题;
所述根据所述关键词,更新与所述话题数据关联的摘要信息,包括:
分别获取每一所述关键词的累计词频,并计算所述累计词频的增长加速度,其中,所述关键词的累计词频表示在当前时刻已获取的所有话题数据中,所述关键词出现的累计次数;
将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中;
计算当前时刻所述矩阵的特征值,当所述特征值大于第一阈值时,从所述矩阵中确定出大于第二阈值的增长加速度;所述第一阈值为针对所述矩阵的特征值设置的阈值;
根据确定出的每一增长加速度所对应的分词,从已获取到的所有话题数据中筛选出包含该分词的话题数据;
对包含该分词的话题数据再次进行分词处理,并计算分词处理后得到的各个分词的词频特征值;
将所述词频特征值大于第三阈值的分词输出为高频词,通过预算算法对各个所述高频词进行连接处理,以得到包含各个所述高频词的所述摘要信息。
2.如权利要求1所述的突发话题检测方法,其特征在于,所述计算当前时刻所述矩阵的特征值,当所述特征值大于第一阈值时,从所述矩阵中确定出大于第二阈值的增长加速度,包括:
将当前时刻所述矩阵中的各个增长加速度分成N个组别,并将每一组别的增长加速度映射至一个子矩阵中;
计算每一所述子矩阵的特征值,当所述子矩阵的特征值大于第四阈值时,从所述子矩阵中筛选出大于第二阈值的增长加速度;
其中,所述N为大于1的整数;所述第四阈值为针对所述子矩阵的特征值设置的阈值。
3.如权利要求1所述的突发话题检测方法,其特征在于,所述对包含该分词的话题数据再次进行分词处理,并计算分词处理后得到的各个分词的词频特征值,包括:
对包含该分词的话题数据再次进行分词处理,得到多个分词;
在当前时刻所获取到的所有话题数据中,分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率;
对每一分词的所述统计词频以及所述逆向文件频率进行加权处理,以输出该分词的词频特征值。
4.如权利要求1所述的突发话题检测方法,其特征在于,所述将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词,包括:
根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数,计算每一种分词结果的分词字符平均数;
对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理,以输出每一种分词结果的匹配度;
将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有突发话题检测程序,其特征在于,所述突发话题检测程序被至少一个处理器执行时,实现如权利要求1-4中任一项所述的突发话题检测方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710433359.1/1.html,转载请声明来源钻瓜专利网。