[发明专利]一种基于关键词提取的情感分析方法及系统在审
申请号: | 201811137069.3 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109214008A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 王涵;孔晶;闫骏;王龙 | 申请(专利权)人: | 珠海中科先进技术研究院有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 俞梁清 |
地址: | 519000 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感分析 初始文本数据 文本数据 关键词提取 同义词词典 分词处理 预处理 第三方接口 可视化图形 同义词替换 交互界面 决策依据 可视化 停用词 加载 算法 字典 分析 可信 转换 清晰 展示 | ||
本发明的技术方案包括一种基于关键词提取的情感分析方法及系统,用于实现:加载待分析的初始文本数据并执行分词处理;将所述进行分词处理的初始文本数据进行预处理,对文本数据进行停用词清除;建立属性词词典,包括使用TF‑IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;基于同义词词典以及属性词对初始文本数据进行同义词替换;建立情感分析模型,并对得到的文本数据进行分析,得出情感评分;将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。本发明的有益效果为:基于字典的情感分析具有较高的灵活性与较低的实现条件,且更清晰明了的对管理者提供更高效、更全面、更可信的决策依据。
技术领域
本发明涉及一种基于关键词提取的情感分析方法及系统,属于数据分析领域。
背景技术
在巨量社会媒体所带来的文本数据的冲击下,评论信息已经不仅是消费者选择的依据,更是商家做重要决策的来源。如何从社会媒体网站信息中挖掘更有效更全面的信息,为管理者提供更高有效度与可信度的决策依据,是目前技术存在的缺陷。
随着社会媒体网站应用范围的不断扩展,消费者在社会媒体网站中所产生的数据信息也不断的成为各个领域研究人员的主要初始数据来源。研究人员通过将文本数据转化为结构式数据,从而挖掘以评论信息为代表的文本信息,了解产品、商家以及品牌的电子口碑,进而为管理者提供真实有效的决策依据。伴随着科技的不断发展,大量模拟人类行为的人工智能情感分析模型也不断投入到实际应用当中,其中,基于词典和语料库的情感分析系统是最接近人工情感分析方法的模型,具有较强的弹性适用范围能力与较高的准确率。
但现有技术任存在问题,如较低的灵活度及较高的实现条件。比如针对现有的旅游管理与酒店款待业的字典,本发明进一步做了完善与处理,并对字典的使用方法,做了进一步完善。相比于对训练数据库要求严格的机器学习,基于字典的情感分析具有较高的灵活性与较低的实现条件。
发明内容
本发明提供了一种基于关键词提取的情感分析方法及系统,本发明在对文本数据清除大量无用停用词后,利用TF-IDF(词频-逆文本频率指数)算法提取文本文件中的前500-2000个关键词;此外,本发明针对特定应用领域,建立特定的具有包含属性的同义词词典,并在该同义词词典的基础上采用替换-排重算法,对关键词进行同义词排重整理,以此提炼出一定数量的、非重复的、与商品、商家、品牌等有关的属性词;该发明利用之前提到的包含属性的同义词词典,将初始文本数据中的子属性替换为所提取的属性词,利用同义词词典和情感分析系统,将文本数据转化为结构式数据,逐条从评论信息中提取针对各个属性的情感词,统计并记录得分,最终得到每位顾客对该商品、企业或品牌的各个属性的情感分数以及总体的情感分数;本发明以逗号为节点,识别属性词及描述该属性词的情感词,以每条评论为单位,计算并统计该顾客对产品、商家或品牌各属性及总体情感分数。
本发明的技术方案包括一种基于关键词提取的情感分析方法,其特征在于,该方法包括以下步骤:S1,加载待分析的初始文本数据并执行分词处理;S2,将所述S1进行分词处理的初始文本数据进行预处理,其中预处理具体包括对文本数据进行停用词清除;S3,建立属性词词典,包括使用TF-IDF算法提取出文本数据的多个关键词,根据关键词建立同义词词典、属性词词典;S4,基于同义词词典以及属性词对初始文本数据进行同义词替换;S5,建立情感分析模型,并对步骤S4得到的文本数据进行进行分析,得出情感评分;S6,将情感评分通过第三方接口转换成可视化图形并通过交互界面进行可视化展示。
根据所述的基于关键词提取的情感分析方法,其中步骤S1具体包括:S11,使用网络爬虫从指定的一个或多个网页爬取所需的初始文本数据,并将初始文本数据存储至数据库;S12,使用编译平台从数据库提取初始文本数据,进一步,使用结巴分词法对初始文本数据进行分词处理。
根据所述的基于关键词提取的情感分析方法,其中结巴分词法对初始文本数据进行分词处理具体为精确分词模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海中科先进技术研究院有限公司,未经珠海中科先进技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811137069.3/2.html,转载请声明来源钻瓜专利网。