[发明专利]事件发现方法、装置、设备及存储介质有效
申请号: | 201810559050.1 | 申请日: | 2018-06-01 |
公开(公告)号: | CN110633330B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 陈玉光;陈文浩;周辉;郑宇宏;陈伟娜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/951;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 发现 方法 装置 设备 存储 介质 | ||
本申请实施例提供一种事件发现方法、装置、设备及存储介质,通过获取多个包括目标关键词的文本;从所述多个文本的标题中提取出独立描述事件信息的短语;对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。本申请实施例提供的事件发现方法能够提高事件发现的准确率以及事件的召回率。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种事件发现方法、装置、设备及存储介质。
背景技术
随着互联网的发展,互联网信息呈现爆发式的增长,每个人都不得不面对信息过载的问题。当用户想要关注某个人物或者公司时,用户不得不面对的是大量未经整理的新闻资讯。如果能够将互联网中大量的资讯以“事件”为粒度进行组织,并呈现给用户,就能够大大减少用户获取资讯的时间成本。
当前事件发现的主要方法包括三种分别为:聚类的方法、突发检测的方法以及聚类与突发检测结合的方法,其中,聚类的方法是针对某些文本资源按照预设的相似度计算方法对文本的正文进行聚类处理,其聚类的基本单元通常是新闻或者微博等能反应事件信息的资源。突发检测则是对关键字的出现频率进行监控,对出现频率有突发性增长的关键字进行识别和提取。而二者结合的方法则是先进行突发检测,再基于突发检测得到的结果召回新闻,再基于召回的新闻进行聚类。
但是,由于突发检测的关键字或搜索词比较简短,虽然能够识别出某些关键字或实体存在突发,但无法挖掘到究竟是哪个事件或者哪几个事件导致的,事件召回率较低。而聚类的方法以及聚类和突发检测相结合的方法,在进行聚类操作时,其聚类的对象都是新闻或者微博的正文,容易形成聚类簇不纯和超大簇的问题,事件发现的准确率较低。
发明内容
本申请实施例提供一种事件发现方法、装置、设备及存储介质,用以提高事件发现的准确率以及事件的召回率。
本申请实施例第一方面提供一种事件发现方法,包括:获取多个包括目标关键词的文本;从所述多个文本的标题中提取出独立描述事件信息的短语;对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
本申请实施例第二方面提供一种事件发现装置,包括:获取模块,用于获取多个包括目标关键词的文本;短语挖掘模块,用于从所述多个文本的标题中提取出独立描述事件信息的短语;聚类模块,用于对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;显示设备,用于显示事件中的文本,和/或事件与短语之间的关联关系;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过获取多个包括目标关键词的文本,从该多个文本的标题中提取出独立描述事件信息的短语,并对提取出的短语进行聚类,从而将属于同一聚类簇的短语所在的文本聚在一起,形成事件。由于本申请实施例在获取到多个包括目标关键词的文本后,进一步的采用了聚类的方法来形成事件,因此,能够避免因为关键词较短所导致的事件召回率低的问题,提高了事件的召回率。另外,在采用聚类方法形成事件时,本申请实施例是以能够独立描述事件信息的短语为基础来进行聚类的,相比于现有技术以文本正文为聚类的基础,显然能够避免超大聚类簇的形成,并且相较于文本正文,短语一般只包括一个事件,因而本申请实施例能够提高聚类簇的纯度,使得一个聚类簇仅包括一个事件,也就是说本申请实施例能够提高事件发现的准确率。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是本申请实施例提供的一种事件发现方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810559050.1/2.html,转载请声明来源钻瓜专利网。