[发明专利]事件发现方法、装置、设备及存储介质有效
申请号: | 201810559050.1 | 申请日: | 2018-06-01 |
公开(公告)号: | CN110633330B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 陈玉光;陈文浩;周辉;郑宇宏;陈伟娜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/951;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 发现 方法 装置 设备 存储 介质 | ||
1.一种事件发现方法,其特征在于,包括:
获取多个包括目标关键词的文本;
从所述多个文本的标题中提取出独立描述事件信息的短语;
对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件;
所述获取多个包括目标关键词的文本,包括:
监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词;
所述对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件,包括:
针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本;
将所述目标文本的特征词作为所述短语的特征词;
基于各短语的特征词,在各短语之间进行相似度计算;
将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
2.根据权利要求1所述的方法,其特征在于,所述监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词之前,所述方法还包括:
确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差;
基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
3.根据权利要求1所述的方法,其特征在于,所述从所述多个文本的标题中提取出独立描述事件信息的短语,包括:
基于预设的语法结构,从所述多个文本的标题中提取出独立描述事件信息的短语。
4.根据权利要求1所述的方法,其特征在于,所述从所述多个文本的标题中提取出独立描述事件信息的短语,包括:
从所述多个文本的标题中提取出被标点符号和/或空格分割开的短语作为独立描述事件信息的短语。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标文本的特征词作为所述短语的特征词,包括:
从所述目标文本的标题中提取特征词,将所述特征词作为所述短语的特征词。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在形成事件后,所述方法还包括:
显示事件与短语之间的关联关系。
7.一种事件发现装置,其特征在于,包括:
获取模块,用于获取多个包括目标关键词的文本;
短语挖掘模块,用于从所述多个文本的标题中提取出独立描述事件信息的短语;
聚类模块,用于对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件;
所述获取模块,包括:
监控子模块,用于监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词;
所述聚类模块,包括:
获取子模块,用于针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本;
确定子模块,用于将所述目标文本的特征词作为所述短语的特征词;
计算子模块,用于基于各短语的特征词,在各短语之间进行相似度计算;
事件形成子模块,用于将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差;
第二确定模块,用于基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
9.根据权利要求7所述的装置,其特征在于,所述短语挖掘模块,包括:
第一挖掘子模块,用于基于预设的语法结构,从所述多个文本的标题中提取出独立描述事件信息的短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810559050.1/1.html,转载请声明来源钻瓜专利网。