[发明专利]一种基于义原的自然语言情感分类方法在审
申请号: | 202110272643.1 | 申请日: | 2021-03-13 |
公开(公告)号: | CN112966514A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 辛欣;王艳平 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/289 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 情感 分类 方法 | ||
本发明涉及一种基于义原的自然语言情感分类方法,属于自然语言处理中的信息分类技术领域。所述方法先对HowNet知识库中的义原进行正向和负向极性的标注;再利用HowNet知识库中的词义和义原的对应信息来对知识库中的所有词进行远程监督的标注,从而获取词或短语的正负极性的关系的字典;然后将数据集中的文本与包含正负极关系的字典进行匹配,获取远程监督的数据集;然后设计一个监督的模型进行训练,从而实现对文本情感分类的任务。由于引入了义原对情感进行分类,缓解了其中极性词指向不明显的文本进行情感分类的困难。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。
技术领域
本发明涉及一种基于义原的自然语言情感分类方法,属于自然语言处理中的信息分类技术领域。
背景技术
自然语言情感分类任务是给定一段自然语言文本,返回这个自然语言文本正负向倾向。例如“读书是一件很有趣的事情”,这句话传递出的是一种正向的情感倾向。
自然语言情感分类是是近年来学术界和工业界研究的热点。它能够帮助用户快速的分析并且提取相关的带有情感色彩的评价信息。这与传统的文本分类任务不同,传统的文本分类主要研究的是文本中的客观内容,而情感分类主要针对的是文本中的主观内容,能够输出是否支持某种观点的信息。
现有的自然语言情感分类方法,主要是通过构建极性词表的方法来实现情感分类,由于一些文本中的词的正负极性不明显,导致这样的方法难以对其进行分类。为了缓解这样的问题,本发明通过启发式的假设句子中的义原信息的正负向极性是文本中蕴含情感信息的重要特征,将文本映射到义原所在空间中,从而利用义原本身所包含的极性信息来进行情感分类。提出了一种基于义原的自然语言情感分类方法。
我们提出的一种基于义原的自然语言情感分类方法。先对HowNet知识库中的义原进行正向和负向极性的标注;再利用知识库中的词义和义原的对应信息来获取正负极性的关系的字典和远程监督的数据集;然后有监督的训练一个情感分类任务的模型进行训练。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。
发明内容
本发明的目的在于针对现有的情感分类方法中极性词指向不明显的问题,提出了一种基于义原的自然语言情感分类方法。
所述基于义原的自然语言情感分类方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
1.一种融合触发词识别特征的实体关系抽取方法,包括包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi;
其中Yi的取值为0或1,分别表示该词极性为负向和正向;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi;
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272643.1/2.html,转载请声明来源钻瓜专利网。