[发明专利]一种基于义原的自然语言情感分类方法在审

申请号：	202110272643.1	申请日：	2021-03-13
公开（公告）号：	CN112966514A	公开（公告）日：	2021-06-15
发明（设计）人：	辛欣;王艳平	申请（专利权）人：	北京理工大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/289
代理公司：	北京正阳理工知识产权代理事务所(普通合伙) 11639	代理人：	张利萍
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自然语言情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于义原的自然语言情感分类方法，属于自然语言处理中的信息分类技术领域。所述方法先对HowNet知识库中的义原进行正向和负向极性的标注；再利用HowNet知识库中的词义和义原的对应信息来对知识库中的所有词进行远程监督的标注，从而获取词或短语的正负极性的关系的字典；然后将数据集中的文本与包含正负极关系的字典进行匹配，获取远程监督的数据集；然后设计一个监督的模型进行训练，从而实现对文本情感分类的任务。由于引入了义原对情感进行分类，缓解了其中极性词指向不明显的文本进行情感分类的困难。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。

技术领域

本发明涉及一种基于义原的自然语言情感分类方法，属于自然语言处理中的信息分类技术领域。

背景技术

自然语言情感分类任务是给定一段自然语言文本，返回这个自然语言文本正负向倾向。例如“读书是一件很有趣的事情”，这句话传递出的是一种正向的情感倾向。

自然语言情感分类是是近年来学术界和工业界研究的热点。它能够帮助用户快速的分析并且提取相关的带有情感色彩的评价信息。这与传统的文本分类任务不同，传统的文本分类主要研究的是文本中的客观内容，而情感分类主要针对的是文本中的主观内容，能够输出是否支持某种观点的信息。

现有的自然语言情感分类方法，主要是通过构建极性词表的方法来实现情感分类，由于一些文本中的词的正负极性不明显，导致这样的方法难以对其进行分类。为了缓解这样的问题，本发明通过启发式的假设句子中的义原信息的正负向极性是文本中蕴含情感信息的重要特征，将文本映射到义原所在空间中，从而利用义原本身所包含的极性信息来进行情感分类。提出了一种基于义原的自然语言情感分类方法。

我们提出的一种基于义原的自然语言情感分类方法。先对HowNet知识库中的义原进行正向和负向极性的标注；再利用知识库中的词义和义原的对应信息来获取正负极性的关系的字典和远程监督的数据集；然后有监督的训练一个情感分类任务的模型进行训练。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。

发明内容

本发明的目的在于针对现有的情感分类方法中极性词指向不明显的问题，提出了一种基于义原的自然语言情感分类方法。

所述基于义原的自然语言情感分类方法，包括识别句子中触发词和实体关系抽取，具体包括以下步骤：

1.一种融合触发词识别特征的实体关系抽取方法，包括包括义原正负向极性的标注和文本情感分类，具体包括以下步骤：

步骤1：提取义原的极性特征；

步骤1.1：对HowNet知识库中所有义原标注其属于正向极性还是负向极性，输出标注后的义原列表L:S_i→Y_i；

其中Y_i的取值为0或1，分别表示该词极性为负向和正向；

步骤1.2：将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原S_i进行匹配，输出将词映射到正负向极性的字典D:C_i→Y_i；

步骤2：将数据集中的文本进行分词；

步骤2.1：使用Stanford分词开源工具将句子进行分词；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载