[发明专利]一种面向社交网络的特定事件抽取方法有效
申请号: | 201711282321.5 | 申请日: | 2017-12-07 |
公开(公告)号: | CN107766585B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 胡岩峰;赵安;黎谢鹏;吕晓强;陈诗旭;任金宝;俞信;包伟伟 | 申请(专利权)人: | 中国科学院电子学研究所苏州研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06Q50/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 王铭陆 |
地址: | 215123 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 社交 网络 特定 事件 抽取 方法 | ||
1.一种面向社交网络的特定事件抽取方法,其特征在于:具体包含如下步骤:
设已知事件类型的训练集Ttrain={ttrain_1,ttrain_2,…,ttrain_N;ytrain_1,ytrain_2,…ytrain_N},其中ttrain_i表示一条推文文本以及retweet、hashtag、用户推文相关信息,ytrain_i表示推文所属的事件类型且ytrain_i∈{0,1,2,3},时间段t内采集的推文测试集Ttest={ttest_1,ttest_2,…,ttest_N};
步骤1,建立初滤模块的关键字集合;
步骤2,对测试集中的推文进行初滤;
步骤3,对步骤2初滤后的测试集中的推文进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理;
步骤4,对于训练集Ttrain,训练卷积神经网络,得到事件分类模型;
步骤5,利用步骤4得到的事件分类模型对经过步骤3预处理后的测试集推文进行分类,并将类型不属于事件分类模型的推文滤除;
步骤6,利用K-means算法将测试集中同一类型的推文聚类成多个事件实例簇;
步骤7,对步骤6得到的事件实例簇提取事件要素。
2.根据权利要求1所述的一种面向社交网络的特定事件抽取方法,其特征在于:所述步骤1具体包含如下步骤;
步骤1.1,对于每个待检测的特定事件类型名称,分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表;
步骤1.2,对于每个类型,分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词,扩充其关键词集合;
步骤1.3,对于每个类型,分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表,扩充其关键词集合;
步骤1.4,将三个关键字集合合并得到初滤模块的关键字集合。
3.根据权利要求1所述的一种面向社交网络的特定事件抽取方法,其特征在于:所述步骤2具体包含如下步骤;
步骤2.1,若推文中包含hashtag,且hashtag中包含关键字集合中的关键字,则判定该推文与特定事件相关;
步骤2.2,若步骤2.1条件不符合,则计算推文与关键字集合间的Jaccard相似度,若该相似度高于预设阈值,则判定该推文与事件相关。
4.根据权利要求1所述的一种面向社交网络的特定事件抽取方法,其特征在于:所述步骤4具体包含如下步骤;
步骤4.1,将Ttrain中的每条推文由词向量的串联表示,采用200维基于GloVe在推文数据集上训练的词向量,通过TF-IDF对词向量进行加权并将hashtag中的词权重加倍;
步骤4.2,将步骤4.1推文向量及标签作为输入,卷积神经网络采用Xavier方法进行初始化,偏置项均初始化为0,采用l2正则化以及dropout策略,通过随机梯度下降法更新输入特征向量以及网络参数,得到事件分类模型。
5.根据权利要求1所述的一种面向社交网络的特定事件抽取方法,其特征在于:所述步骤6具体包含如下步骤;
步骤6.1,将推文采用步骤5中卷积神经网络全连接层中的200维向量表示,并利用余弦相似度计算文本相似度;
步骤6.2,利用命名实体识别算法抽取推文的命名实体,并利用余弦相似度计算命名实体相似度;
步骤6.3,根据预处理中词性标注的结果滤除介词、冠词,滤除命名实体,之后通过基于hashtag加权的TF-IDF算法获得推文的关键词,取排名前10的关键词计算关键词相似度;
步骤6.4,计算两条推文的相似度。
6.根据权利要求1所述的一种面向社交网络的特定事件抽取方法,其特征在于:所述步骤7具体包含如下步骤;
步骤7.1,计算簇中所有推文对于簇的重要性weightik,并通过加权合并得到该事件实例簇的主体、时间、地点、关键词;
步骤7.2,计算事件实例的热度和可信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所苏州研究院,未经中国科学院电子学研究所苏州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711282321.5/1.html,转载请声明来源钻瓜专利网。