[发明专利]一种跨事件新闻文本情感分析方法在审
申请号: | 201810578907.4 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108829806A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 高琰;杨海洋;陈白帆;王艳东;周玲君 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;李美丽 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件新闻 文本情感 新闻文本 文本特征矩阵 迁移 标签集合 分析 抓取 机器学习算法 准确度 成分分析 成份分析 分析模型 高维空间 情感倾向 人工情感 特征矩阵 提取事件 标签化 映射 算法 文档 学习 | ||
本发明公开了一种跨事件新闻文本情感分析方法,包括:抓取若干篇用于训练的关于事件A、待分析情感的关于事件B的新闻文本;将事件A的每篇新闻文本的情感倾向进行标记;提取事件A、事件B的新闻文本的TF‑IDF特征以形成文本特征矩阵XA和XB;利用迁移成份分析算法将事件A的文本特征矩阵XA、事件B的文本特征矩阵XB进行迁移学习,将XA和XB映射到高维空间,分别对应得到新的特征矩阵XA'和XB';将人工情感标记进行标签化,形成用于训练的标签集合;将XA'、XB'和所述标签集合作为机器学习算法的输入,得到跨事件新闻文本情感分析模型。本发明采用迁移成分分析方法,将两个具有不同分布的事件的新闻文本文档进行迁移学习,可以提高跨事件新闻文本情感分析的准确度。
技术领域
本发明属于自然语言处理技术领域,特别涉及一种跨事件新闻文本情感分析方法。
背景技术
新闻是一种记录与传播信息的文体。政府可以运用新闻传播真理、组织群众、推动工作;企业可以运用新闻宣传企业文化、推销企业产品、扩大社会影响。随着互联网时代的飞速发展,公众论坛、微博、新闻客户端等新媒体发展较快,为公众直接参与舆论形成及传播开辟了广阔的空间。新闻舆论作为传播信息和可以影响群众意识形态的途径,既是信息载体又是一种管理工具。在互联网成为舆论斗争和信息发散最前沿的今天,新闻不止包含了最新事件,也存在大量有用信息。于政府,新闻舆论的监督和控制成为了一项重要任务;于企业,新闻宣传对企业文化传播与推广影响也是一项课题。如何衡量和掌握大量新闻中的关键信息和舆论走向成为了一个难题。
新闻作为一种文体,对人影响最大的就是其包含的情感,它或正面或负面,但很少中立。一篇情感激昂的奥运夺金报道,可以大大提升人们的民族自豪感;而一篇抨击食品安全问题的新闻,也会让人们对某家企业丧失信心。因此,把针对某一事件或个体的大量新闻汇集,分析其情感可以分析出舆论对其的看法。
目前针对新闻类文本的的情感分析方法主要有:基于情感词典的文本情感分析方法、基于机器学习的情感分析方法。
基于情感词典的文本情感分析方法起源于语法规则的文本分析,依赖于专业人士构建的情感词典,如正向情感词词典和负向情感词词典,加以规则来进行情感分类。依据国内外广泛使用的情感词典,Taboada等人提取文中的情感词并加以统计,不仅关注情感词的比重,即正向词比负向词的值,同时也细化到情感的强度计算,将情感强度定义在-5(非常负向)到+5(非常正向)之间。Saif等人提出了SentiCircle方法,将同时出现的情感词加入度量,通过分析不同的文本中出现的上下文情况来确定情感词极性和权重,最终通过强度计算来识别情感。情感词典方法依赖于词典,且词典不适用于所有事件的报道,有失全面性。
基于机器学习的情感分析方法基于多种特征进行建模,目前关于情感分析主要运用的机器学习方法主要有朴素贝叶斯支持向量机(Support VectorMachine,SVM)等。Mohammad等人利用2013年SemEval比赛的数据集训练了一个SVM分类器,将每个文本表示为一个向量,其中包含情感标签、情感词、n-gram等,他们发现利用这些特征进行训练要比利用某单一特征训练效果更好。Asiaee等人提出了一个三层级联分类模型,第一层将文本按话题和兴趣分类,第二层中依据情感进行分类,第三层则按情感词所占比例进行分类。Bao等人检验了不同的预处理方法对文本情感分类的影响,他们测试了网址、否定词、重复词和词根,实验结果表明当网址、否定词和重复词为特征时分类准确率很高,而把所有词和词根都作为特征准确率则很低。机器学习方法需要大量的训练数据,而且其表现依赖于训练数据和测试数据在领域、主题和时限上的相似程度,而新闻文本则依据事件不同表达方式大都不同,用同一个模型对新闻进行自动分析时,往往准确性不高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578907.4/2.html,转载请声明来源钻瓜专利网。