[发明专利]基于背景知识的讽刺检测方法有效

专利信息
申请号: 201911387640.1 申请日: 2019-12-27
公开(公告)号: CN111159405B 公开(公告)日: 2023-09-12
发明(设计)人: 杜宇;李童;杨震 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/295
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 吴荫芳
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 背景 知识 讽刺 检测 方法
【权利要求书】:

1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,

步骤(1)获取讽刺文本数据集;

步骤(2)数据预处理;

步骤(3)提取数据集中的实体并构建实体列表;

对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;

步骤(4)构建背景知识并获取背景知识的句向量;

分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;

步骤(5)训练讽刺检测模型;

步骤(6)预测讽刺文本;

使用数据集中的训练集对模型进行训练调参后,得到讽刺检测模型参数,使用模型对测试集文本进行预测测试,预测文本的类别,类别包含讽刺与非讽刺两类;

其中,步骤(5)的实施过程如下:

步骤(5.1)卷积神经网络模型提取数据集文本特征;

数据集中第i条文本通过卷积神经网络模型得到文本特征向量ci

步骤(5.2)将文本特征向量与文本对应的背景知识句向量拼接;

将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示⊕为向量拼接操作符;

步骤(5.3)对拼接后的向量vi进行训练;

通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:

pi,j=softmax(wcvi+bc)

上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该向量最后预测的类别;

其中,损失函数为:

其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc

2.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤1中所述的数据集为Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影;数据集中讽刺类别标签为1,非讽刺类别标签为0。

3.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤2所述的预处理包括去除停用词、英文单词词形还原和去除特殊符号。

4.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤3中所述的命名实体识别通过自然语言处理工具包Stanford和NLTK实现。

5.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:获取背景知识句向量的算法描述如下:

1)数据集的一条背景知识序列为w1,w2,w3,……wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,……xT,xq为这条背景知识中第q个单词的单词向量;

2)根据单词wt计算单词wt的平均log可能性,t∈(1,T):滑动窗口为k,取wt两侧k个单词的向量作为算法的输入;di为数据集中第i条背景知识映射成的一个唯一向量,单词wt的平均log可能性即为目标函数,计算公式如下:

其中wt的条件概率通过Softmax函数进行计算,计算公式如下:

上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),为第i条背景知识中单词wt的概率,其中,y表示单词的概率,计算公式如下:

y=Udh(di,xt-k,....,xt+k;D,X)+b

Ud和b为Softmax的参数,每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示,每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示,h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成;D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X;优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取,整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911387640.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top