[发明专利]基于背景知识的讽刺检测方法有效
申请号: | 201911387640.1 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111159405B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杜宇;李童;杨震 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/295 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 背景 知识 讽刺 检测 方法 | ||
本发明公开了一种基于背景知识的讽刺检测方法,该方法步骤如下:步骤(1)获取讽刺文本数据集SARC;步骤(2)数据预处理;步骤(3)提取目标文本中的实体并构建实体列表;步骤(4)构建背景知识并获取背景知识的句向量;步骤(5)训练讽刺检测模型;步骤(6)预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识,通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明,加入相关的背景知识对文本的讽刺检测性能有明显的提升。
技术领域
本发明涉及深度学习的情感分析方法,属于互联网自然语言处理领域。
背景技术
讽刺作为社交媒体中常用到的表达修辞手法,说话者通过讽刺来表达实际的不同于文字字面内容的隐式情感,这种情感多是否定、嘲笑、批评等意思。讽刺的出现也对社交媒体情感分析与舆论分析带来了巨大的困难。
语言学中,句子中出现的情感词、标点符号都被作为讽刺的标志。讽刺检测之前的工作多是基于文本内容本身来分析,通过句子中出现的情感词及句子表达的情感、情绪等特征来判断是否含有讽刺。但是在社交媒体中,用户发表的内容多为口语化的短文本,有些句子中根本没有上述提到的讽刺标志。如果仅通过句子本身内容,很难进行识别。然而通过文本中的背景知识有助于分析句子实际要表达的语义信息。
发明内容
本发明的目的在于提出了一种基于背景知识的讽刺检测方法,本方法在基于文本本身进行讽刺检测的基础上,利用百科搜索引擎为文本添加涉及到的背景知识的特征信息来解决文本是否含有讽刺的分类问题。
为实现上述目的,本发明采用的技术方法为基于背景知识的讽刺检测方法,该方法的实现步骤如下:
步骤(1)获取讽刺文本数据集SARC
获取Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺标签为1,非讽刺标签为0。
步骤(2)数据预处理
通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取数据集中的实体并构建实体列表
通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别,识别的实体类别根据具体领域来设定。如果涉及到的是政治领域,则可以识别出包含人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表E。
步骤(4)构建背景知识并获取背景知识的句向量
步骤(4.1)构建背景知识
1)实体列表E={e1,e2,.....eN},N为实体列表中的实体个数。
2)使用Wikipedia API分别对实体列表E中的实体进行搜索,将搜索到的页面文本作为目标文本的背景知识。
步骤(4.2)获取背景知识的句向量
1)数据集的一条背景知识序列为w1,w2,w3,......wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,......xT,xq为这条背景知识中第q个单词的单词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911387640.1/2.html,转载请声明来源钻瓜专利网。