[发明专利]事件抽取的方法、装置、设备及计算机可读介质有效
申请号: | 201810694341.1 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033200B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 陈亮宇;牛国成;何伯磊;肖欣延;吕雅娟;吴甜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 陈建焕;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 抽取 方法 装置 设备 计算机 可读 介质 | ||
本发明提出一种事件抽取的方法、装置、设备及计算机可读介质,事件抽取的方法包括:采集多个新闻文档;预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。本发明的技术方案可以在海量新闻文档中抽取出事件型的新闻文档,进而获得事件信息。
技术领域
本发明涉及信息处理技术,尤其涉及一种事件抽取的方法、装置、设备及计算机可读介质。
背景技术
世界上每天有很多事件发生和被报道。事件是指某日在某地发生了某事,是真实发生的。我们希望从每天海量的资讯新闻中可以实时、自动获取到结构化的事件信息(特别是热门事件),即从海量新闻中筛选出事件型新闻,以得到事件信息。现有技术中,通过LDA(Latent Dirichlet Allocation,一种文档主题生成模型)和设定规则的方式抽取和聚类事件,这种方法会聚类出很多非事件(如话题谈论类或情感类)的新闻簇,并且事件抽取的准确率低,也无法不断提升事件抽取的效果。
发明内容
本发明实施例提供一种事件抽取的方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种事件抽取的方法,包括:
采集多个新闻文档;
预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
结合第一方面,本发明实施例在第一方面的第一种实施方式中,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
结合第一方面,本发明实施例在第一方面的第二种实施方式中,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
结合第一方面或第一方面的第一种或第二种实施方式,本发明实施例在第一方面的第三种实施方式中,所述采集多个新闻文档的步骤包括:
以预设时间间隔采集预设时间范围内的多个新闻文档。
结合第一方面,本发明实施例在第一方面的第四种实施方式中,所述对各新闻文档,根据命名实体和关键词,采用事件检测模型进行事件检测,以筛选出多个事件型新闻文档的步骤之前,还包括:
获取训练语料;
基于正例和未标注样本学习算法处理所述训练语料;
基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810694341.1/2.html,转载请声明来源钻瓜专利网。