[发明专利]融入观点句特征的汉越双语新闻情感分类方法有效
申请号: | 201910635891.0 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110347836B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 余正涛;刘权;相艳;线岩团;林思琦;赖华;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 李晓亚 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 观点 特征 双语 新闻 情感 分类 方法 | ||
本发明涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理技术领域。本发明通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类。本发明有效地提升越南语新闻情感分类的准确性。
技术领域
本发明涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理技术领域。
背景技术
情感分类是当前自然语言处理研究的热点问题,如何识别一个新闻文本的情感极性是当前的舆情监控的关键问题。通常的情感分类方法主要是构建文本的向量表征进行情感分类。相比较统计特征的文本表征方式,基于神经网络的文本建模有更好的表达能力,比如卷积神经网络(CNN)、循环神经网络(RNN)、Self-attention网络、Transformer网络等。这些文本建模方法可以有效捕捉文本的语义信息,建模文本表征。同时,注意力机制可以对文本表征中的情感相关信息进行关注,提升情感分类效果。上述方法可以广泛应用于评论文本的情感分类任务中;而对于新闻文本来说,其主要是对事实的客观描述,情感的表达并不明显。但通过观察,发现新闻的观点句中包含较多情感信息,利用这些情感信息有助于新闻情感分类。因此,为了对越南语新闻进行情感分类,提出了一种将观点句特征融入文档表征的汉越双语新闻情感分类方法。
发明内容
本发明提供了融入观点句特征的汉越双语新闻情感分类方法,通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类;以用于有效地提升越南语新闻情感分类的准确性。
本发明的技术方案是:融入观点句特征的汉越双语新闻情感分类方法,具体步骤如下:
Step1、实验语料收集:收集汉语、越南语的新闻文本和汉越平行句对;
首先,构建汉越双语词嵌入模型需要大量的汉越新闻文本以及少量的汉越平行文本。为此,从汉语和越南语新闻网站中抓取了汉越新闻各35000篇,并且从越南语学习网(http://vie.tingroom.com/)中抓取了10W条汉越平行句对;
Step2、实验语料标注:为了提供监督学习的应该有的带有标签的数据,通过人工的方式标记了4000篇越南文新闻和12000篇中文新闻的观点句和情感极性,并使用这些标注数据来训练汉越新闻情感分类模型。在汉越新闻标注数据中,军事、时政、财经、娱乐4个不同领域的新闻分别占比为25%;
Step3、构建汉越双语词嵌入模型:使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;
进一步地,所述步骤Step3中,分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型,然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。此步骤能获得汉语和越南语的双语词向量,作为序列输入到后续模型中;
Step4、使用BiLSTM网络对新闻文本进行建模:使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;通过双向LSTM网络后,能获得新闻文本的蕴含上下文信息的隐状态,从而能进行拼接得到一个完成的句子的向量表征;
进一步地,利用步骤Step3构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量,在所述步骤Step4中,将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,得到文档中第i句话中第j个词的隐藏状态;具体公式为:其中,表示前向LSTM网络输出的隐藏状态,表示后向LSTM网络输出的隐藏状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910635891.0/2.html,转载请声明来源钻瓜专利网。