[发明专利]一种基于双引擎网络和DRQN的微博早期谣言检测方法有效
申请号: | 202110693819.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113326437B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 杨武;王巍;玄世昌;苘大鹏;吕继光;仇雨辰 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 引擎 网络 drqn 早期 谣言 检测 方法 | ||
1.一种基于双引擎网络和DRQN的微博早期谣言检测方法,其特征在于,包括以下步骤:
步骤1:谣言检测模块中的原始信息网络读取微博的原始博文信息,得到微博的状态向量;
步骤1.1:通过元数据特征提取器提取原始博文信息的元数据特征;对于提取到的元数据特征使用线性归一化函数进行归一化处理,将每个特征进行等比例缩放,映射到[0,1]区间;
步骤1.2:通过GRU提取原始博文信息的语义特征ht;
xt=WordEmbedding(wt)
ht=GRU(xt,ht-1)
其中,wt为单词的数字表示;xt为单词经过词嵌入层后的单词向量表示;t∈[1,n];
步骤1.3:对于GRU提取到的语义特征ht进行单词层面的自注意力机制加权处理,让更有意义的单词获得更大的权重;
X=[h1,h2,...,hn]
Q=WQX+bQ
Kt=WKht+bK
Vt=WVht+bV
f(Q,Kt)=QTWaKt
at=softmax(f(Q,Kt))
Attention(X)=∑tatVt
其中,向量Q、K、V分别代表Query、Key和Value,这三个向量由向量X经过三次不同的线性变换得到;f(Q,Kt)为Q和Kt之间的相似度计算函数;
步骤2:谣言检测模块中的回复信息网络读取微博的回复信息,得到微博的状态向量;
步骤2.1:针对回复信息语序的不稳定性,采用双向GRU提取基本的语义特征;
xt=WordEmbedding(wt)
其中,表示正向GRU;表示单词正向序列w1~wn经过后的向量表示;表示单词逆向序列wn~w1经过后的向量表示;
步骤2.2:将两个方向的向量进行合并,得到句子的向量表示ht;
步骤2.3:针对回复信息表达方式的随意性特征,采用Text-CNN提取非正常语序的语义特征;
所述的Text-CNN由卷积层和池化层组成;
所述的卷积层提取文本特征,一个卷积核提取文本特征的过程表示为:
ai=f(W*Mi:i+h-1+b)
A=[a1,a2,…,an-k+1]
其中,Mi:i+h-1为词向量矩阵中第i到i+h行的词向量;ai表示用长度为h卷积核提取的第i个文本特征;
所述的池化层采用最大池化函数,即在得到卷积层提取的特征后,从中选出一个最大的特征代表所有特征;
步骤2.2:将所有回复信息经过特征提取后进行句子层面自注意力机制的加权;
步骤3:将微博状态向量输入控制模块,获得是否要继续读取微博回复信息的指令;如果指令为读取回复信息,则将一条新的回复信息输入谣言检测模块;如果指令为不读取回复信息,则执行步骤4;
控制模块由DRQN实现,DRQN是一个典型的部分可观察马尔科夫决策过程,循环神经网络的加入使得模型拥有了状态序列的记忆功能,进而可以学习到状态序列中的潜在特征;在控制模块采用LSTM来实现状态序列的记忆功能,LSTM通过观测状态信息和上一次的判断情况,得出它认为合理的动作,具体计算过程如下列公式所示:
ht=LSTM(statet,ht-1)
F=Wfht+bf
其中,LSTM网络除了接收当前的状态信息statet以外,还接收上一时刻的LSTM神经元信息ht-1,输出ht后经过全连接层得到长度为二的向量F,最后经过sofmax输出动作概率分布;LSTM的输入状态为谣言检测模块中最后用于分类的向量,输出动作有两个:
继续读取:表示当前的信息不足以得出是否为谣言的判断,让谣言检测模块再读取一条回复信息;
终止读取:表示检测流程的结束,输出检测结果,换言之即谣言检测模块已经有充足的信息做出原始推文是否为谣言的判断,提前输出结果,达到早期检测的目的;
控制模块中的奖励函数如下:
其中,当模型做出终止读取动作后,如果预测正确,直接获得值为R的奖励,避免陷入局部最优;如果预测错误时分两种情况,当实际标签为谣言时,将受到-2P的惩罚;当实际标签为非谣言时,受到-P的惩罚;当模型做出继续读取数据动作时,会受到-(logn+ε)的惩罚,n表示模型读取的回复信息数量,ε为一个较小的值,避免读取第一条回复信息时受到惩罚为0的情况;
步骤4:用Softmax函数对当前的微博状态向量进行是否为谣言的分类,输出分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693819.0/1.html,转载请声明来源钻瓜专利网。