[发明专利]一种基于多尺度异构图嵌入算法的事件检测方法有效
申请号: | 202210063961.1 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114528479B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 吕建明;梁锦涛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/9537;G06F16/901;G06F16/906 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄卫萍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 构图 嵌入 算法 事件 检测 方法 | ||
1.一种基于多尺度异构图嵌入算法的事件检测方法,其特征在于,所述事件检测方法包括以下步骤:
S1、对新闻事件数据集,进行数据清洗和预处理的操作;
S2、对经过步骤S1处理的新闻事件数据集,根据定义的连边类型和节点类型进行异构图的构造;
S3、对步骤S2中获得的异构图,通过异构随机游走算法和异构信息素散布算法分别获得一系列的游走序列和原始图;
所述步骤S3中,对步骤S2中获得的异构图使用异构随机游走算法,当游走到vi节点需要选择下一跳的节点时,首先以相等概率选择下一跳子图类型,再从这个子图节点类型中按照边的权重选择下一跳的节点,选择的概率与边的权重成正比的关系,公式如下:
其中P(vi+1|vi)表示当游走到vi节点时,选择vi+1作为下一跳节点的概率,vi表示异构图中的第i个节点,vi+1表示异构图中的第i+1个节点,vk表示异构图中的第k个节点,W表示异构图的邻接矩阵,其中Wij表示邻接矩阵中第i行第j列的值的大小,在异构图中表示第i个节点与第j个节点之间的连边的边的权重,Wik表示邻接矩阵中第i行第k列的值的大小,在异构图中表示第i个节点与第k个节点之间的连边的边的权重,|Si|表示与节点i相连的节点的类型的个数,N(vi)表示vi的邻居的节点类型的集合,φ(N(vi))表示与节点vi的节点类型不相同的邻居节点类型集合,Ns(vi)表示与vi节点相同节点类型的邻居集合,ξ表示边的集合,异构随机游走算法在图结构上横向获取异构图上的结构特征,获取到在异构图上相隔远但是有关联的节点,最终得到异构随机游走序列;
在异构随机游走的过程中同时运行异构的信息素散布算法,信息素散布算法根据边上的权重以及边上的信息素浓度进行下一跳的选择,选择完下一跳会在之间的连边散布信息素,信息素浓度的计算是根据游走过程中从节点vi出发到回到节点vi中间的路径长度的反比散布,信息素浓度的计算公式如下:
其中i′表示散布的迭代次数为第i′次,(i+1)′表示散布的迭代次数为第(i+1)′次,表示节点i与节点j之间连边的在第(i+1)′次迭代中的信息素浓度,表示节点i与节点j之间连边的在第i′次迭代中的信息素浓度,L(vi)表示从vi节点出发到回到vi节点中间的路径长度中的节点集合,
其中β表示信息素的消失系数,第i′次迭代的信息素传播后,第(i+1)′次迭代过程中从vi节点跳转到vj节点的转移概率,计算公式如下:
其中P(vi→vj)(i+1)′表示在第i+1次迭代过程中从节点vi选择节点vj进行信息素传播的概率,表示在第i次信息素散布后节点i和节点k之间的连边上的信息素浓度,α表示信息素浓度的重要性,通过上述异构信息素散布算法,获得连边上散布完信息素后的异构图,后续步骤根据连边的信息素浓度进行连边的合并;
S4、对步骤S3中通过异构信息素散布算法获得的原始图,根据事先选择的阈值对原始图的连边以及节点进行合并,从而得到压缩后的子图,过程如下:
对步骤S3中由异构信息素散布算法获得的原始图,根据预先设定的阈值对原始图G0的连边以及节点进行合并,选择异构图中连边信息素超过预先设定的阈值的连边,合并这条连边连接的节点;在给定的原始图G0上选择完需要合并的边之后,将这些连边两端的节点合并成图G1上的超节点,从而使得原始图G0简化成更细粒度的子图G1;
S5、重复迭代进行步骤S4,直到压缩后的子图的边和节点的规模小于最小的连边压缩比例或者迭代的次数到达预设的最大值,获取得到一系列尺度的异构图,过程如下:
对步骤S4中通过异构图获得的压缩后的子图G1,设置最大的迭代代数以及最小的连边压缩比例,迭代地进行异构随机游走算法以及异构信息素散布算法,进行异构游走序列的获取以及原始图G0的压缩,获得一系列的压缩后的子图以及每个子图上游走出的异构游走序列:
ψG=G0,G1,…,GL
其中ψG表示包括原始异构图以及所有压缩后的异构子图的图集合,G0是原始的异构图,G1是原始异构图压缩一次后的异构图的子图,GL是最高等级的异构图的子图,ψS表示每一个异构图子图上运行异构随机游走算法获取出的游走序列的集合,表示原始异构图G0运行异构随机游走算法获取的异构游走序列,表示异构图子图G1运行异构随机游走算法获取的异构游走序列,表示异构图子图GL运行异构随机游走算法获取的异构游走序列,将异构图集合中的每一个异构图称为多个尺度的异构图子图,多个尺度的异构图的子图构成异构图金字塔;
S6、对步骤S5中获得的一系列尺度的异构图以及步骤S3中获取的各个尺度上的游走序列,进行滑动窗口采样得到三元组,并使用定义的三元组损失函数进行优化,得到不同尺度上异构图节点嵌入矩阵;
S7、对步骤S6中获得的每一个尺度图上的节点嵌入矩阵进行拼接,再运行PCA降维算法将嵌入矩阵降维至预设指定的维度大小,从而得到最终的嵌入向量;
S8、对步骤S7中获得的嵌入矩阵,使用部分带标签的嵌入向量作为输入,训练一个线性分类器,对测试集中的嵌入向量作为线性分类器的输入,预测得到新闻事件的类别作为输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210063961.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效型计算机用散热机箱
- 下一篇:用于真空吸尘器的表面清洁头