[发明专利]一种自主升级且抗噪的文本情感分析系统有效
申请号: | 201810930606.3 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109165298B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 陈福;刘洋 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/9535 |
代理公司: | 上海牧信专利代理事务所(普通合伙) 31416 | 代理人: | 盛际丰 |
地址: | 201100 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自主 升级 文本 情感 分析 系统 | ||
一种自主升级且抗噪的文本情感分析系统,涉及文本情感分析技术领域,包括用户端、后台端、文本情感判断系统;文本情感判断系统包括媒介分类模块、行业分类模块、媒介引擎组、行业引擎组、规则学习引擎组;规则学习引擎组依据判断结果数据,统计各条情感判断路径对文本内容情感倾向判断的准确率,为文本匹配准确率最高的情感判断路径;同时规则学习引擎组在线训练现有的深度学习算法模型或机器学习算法模型来形成新的深度学习算法模型或机器学习算法模型,并将其与现有的机器学习算法模型进行比较,实现迭代升级。本申请提供一种具有自我学习能力、自主适应环境、较强抗干扰能力的文本情感分析系统,在保障效率的同时,提高准确率。
技术领域
本发明涉及文本情感分析技术领域,具体涉及一种自主升级且抗噪的文本情感分析系统。
背景技术
对客户的情感分析与准确判断是商家孜孜追求的目标,随着互联网文本数据的海量增长,通过人工来分析数据已不大可能,因此纷纷引入机器学习方法,来对这些或长、或短文本,通过机器来这些文本所表达的信息,进行情感分析,进而期望对用户的情感做出精确的判断与把握。
当下,产生了众多该类技术:有基于语义的,也有基于统计的;有的是监督式的,也有非监督式,还有半监督式;有基于传统SVM或随机森林算法,也有基于深度学习的;有专于短文本,也有专于长文本的。但从目前公开的情况来看,此类技术的表现并不是那么尽如人意。比如百度的公开短文本情感分析引擎,我们测下来,其准确度也仅在75%左右。也就是讲,当下所采用的通过机器识别文本情感倾向的技术,其对互联网上文本的情感判断的准确率,还距离人工判断较远,甚至不超过80%,这个比率也较视频识别领域的机器AI技术的准确率要低很多。
分析下来,当前制约文本情感分析不佳的主要原因有:
1、现有的分词技术等,会引入与文章不相干,甚至导致歧义的词汇,而词汇是所有机器学习算法的基础,因为它们是文章特征提取的源头;
2、相同的词汇,在不同类型的文章与不同领域的文章中,往往有着不同的情感意义;
3、互联网是变化的代名词,新的词不断涌现,或者一个词,在相似的场景,随着时间变化而具有不同意思;
4、尽管采用的是机器学习型算法,但其算法模型常在上线生产环境之前由人工训练好,而在运行过程中,不能自主地学习与适应上述复杂的互联网环境。
总之,来之互联网的干扰太多,而当下所用的机器学习算法,尽管可以对文章情感进行预判(不管准不准确),缺乏自主适应和自主学习的能力,也就是缺少抗噪的机制,从而导致了当下机器学习型文本情感判断技术准确度不高。
发明内容
为了至少解决上述现有技术存在的缺陷之一,本申请提供一种具有自我学习能力、自主适应环境、较强抗干扰能力的文本情感分析系统,在保障效率的同时,提高准确率。
为了达到上述技术效果,本发明的具体技术方案如下:
一种自主升级且抗噪的文本情感分析系统,包括用户端、后台端、文本情感判断系统;所述文本情感判断系统包括媒介分类模块、行业分类模块、媒介引擎组、行业引擎组、规则学习引擎组;
所述媒介分类模块获取待情感分析的文本内容,判断其是否来源于媒介,如果文本内容是来源于媒介,再将其发送给相应媒介类型的媒介特征词典,反之则不发送给媒介特征词典;所述媒介类型包括评论、新闻、博客、微信、微博,所述媒介特征词典对应地包括评论类特征词典、新闻类特征词典、博客类特征词典、微信类特征词典、微博类特征词典;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810930606.3/2.html,转载请声明来源钻瓜专利网。