[发明专利]基于语义扩展的微博突发事件检测方法及装置有效
申请号: | 201710022500.9 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106886567B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 胡春明;吴博;彭浩;张日崇;李建欣 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/335 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于语义扩展的微博突发事件检测方法及装置,本发明提供的基于语义扩展的微博突发事件检测方法包括:获取与待检测的微博突发事件对应的第一关键词;根据第一关键词和第一关键词关联的词向量文件,得到微博突发事件;其中,第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,词向量文件包括第一关键词与其它训练词语之间的语义相似度。本发明的基于语义扩展的微博突发事件检测方法及装置,通过考虑文本的语义信息来扩展事件的关键词,并通过扩展后的关键词进行微博突发事件的检测,可以准确的检测微博突发事件,避免了将同一事件分成两个微博事件,并可以进行在线检测。 | ||
搜索关键词: | 基于 语义 扩展 突发事件 检测 方法 装置 | ||
【主权项】:
1.一种基于语义扩展的微博突发事件检测方法,其特征在于,包括:获取与待检测的微博突发事件对应的第一关键词;根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件;其中,所述第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,所述词向量文件包括所述第一关键词与其它训练词语之间的语义相似度;其中,所述根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件,包括:根据所述词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词;根据所述第一关键词和所述第二关键词,获取包含所述第一关键词和/或所述第二关键词的多个微博;根据所述多个微博,得到所述微博突发事件;其中,所述根据所述多个微博,得到所述微博突发事件,包括:获取所述多个微博被检测出来的检测时间;获取所述多个微博的相关度,将相关度位于前N名的N个微博作为所述微博突发事件的相关微博,并获取所述相关微博的摘要;获取各所述相关微博的属性,所述属性包括:微博中出现的地点以及参与者,并获取出现次数最多的目标地点和出现次数最多的目标参与者;根据所述相关微博的语义表达,采用语义扩展的Embedding细胞词库和支持向量机SVM方法,获取所述微博突发事件的分类;采用基于SVM的情感分类方法,获取所述微博突发事件的情感;根据所述检测时间、相关微博、摘要、目标地点、目标参与者、微博突发事件的分类以及微博突发事件的情感,得到所述微博突发事件;其中,所述获取所述相关微博的摘要,包括:采用NLPIR分词系统获取对所述相关微博的第一描述;查询所述相关微博中是否含有主体标签,所述第一描述中是否含有所述主体标签;若所述相关微博和所述第一描述中均含有主体标签,则将第一描述作为所述摘要;若所述相关微博中包含主体标签,第一描述中不包括主体标签,则将所述主体标签作为所述摘要;若所述相关微博中不包含主体标签,则获取相关微博中包含最多关键词的语句,将所述语句作为所述摘要;其中,关键词是指所述第一关键词和/或所述第二关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710022500.9/,转载请声明来源钻瓜专利网。
- 上一篇:压缩文件的修改方法与装置
- 下一篇:一种分表方法、装置及电子设备