[发明专利]文章情感极性分析方法、装置、电子设备及存储介质在审

申请号：	202010575481.4	申请日：	2020-06-22
公开（公告）号：	CN111738015A	公开（公告）日：	2020-10-02
发明（设计）人：	谢炜坚;黄强	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06N3/04;G06N3/08
代理公司：	北京市铸成律师事务所 11313	代理人：	阎敏;杨瑾瑾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文章情感极性分析方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了文章情感极性分析方法、装置、电子设备及存储介质，涉及深度学习领域及云计算领域。具体实现方案为：将待分析文章的内容进行截断，得到待分析文章的片段，将所述片段输入多个预训练语言模型；根据所述多个预训练语言模型的输出结果，确定所述待分析文章的情感极性属于正面、负面及中性的概率；将所述待分析文章的情感极性属于正面、负面及中性的概率进行归一化处理，得到所述待分析文章的情感极性的分析结果。本申请实施例能够提高文章情感极性分析结果的准确率。

技术领域

本申请涉及计算机技术领域，尤其涉及深度学习领域及云计算领域。

背景技术

文章的情感极性可以理解为作者对文章所涉及内容的情感倾向，情感极性包括正面、负面和中性。例如，“这部电影空洞乏味”这句话的情感极性为负面；类似地，一篇文章也有对应的情感极性。文章情感极性分析的目的就是将文章分类为情感极性中的一个类别。

近期，基于转换器的双向编码器表征(BERT，Bidirectional EncoderRepresentations from Transformers)模型等一系列预训练语言模型在多种语言理解任务上效果很好，在文本分类、情感分析等任务中达到最先进(state-of-the-art)级别的效果。但是，目前的预训练语言模型对文本的编码长度受限于预训练时的序列长度(通常为512)。如果一个文章的长度超过512个字，BERT模型只能使用该文章中的512个字来确定该文章的情感极性；超出部分则不能被用于确定情感极性。

一些文章的长度较长，例如互联网新闻文本数据中的文章长度通常较长；对于这类文章，由于BERT模型难以提取篇章级上下文信息进行情感极性分析，导致对文章情感极性的分析不够准确。

发明内容

本申请提供了一种文章情感极性分析方法、装置、设备以及存储介质，还提出一种文章情感极性分析模型的训练方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种文章情感极性分析方法，包括：

将待分析文章的内容进行截断，得到待分析文章的片段，将所述片段输入多个预训练语言模型；

根据所述多个预训练语言模型的输出结果，确定所述待分析文章的情感极性属于正面、负面及中性的概率；

将所述待分析文章的情感极性属于正面、负面及中性的概率进行归一化处理，得到所述待分析文章的情感极性的分析结果。

根据本申请的另一方面，提供了一种文章情感极性分析模型的训练方法，所述文章情感极性分析模型包括多个预训练语言模型，所述方法包括：

将样本文章的内容进行截断，得到样本文章的片段，将所述片段输入多个预训练语言模型；

根据所述多个预训练语言模型的输出结果，确定所述样本文章的情感极性属于正面、负面及中性的概率；

将所述样本文章的情感极性属于正面、负面及中性的概率进行归一化处理，得到所述样本文章的情感极性的分析结果；

根据所述分析结果及所述样本文章的情感极性的标签，对所述文章情感极性分析模型进行训练。