[发明专利]一种基于句子结构及上下文的短文本情感值计算方法在审
申请号: | 201810567841.9 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108932227A | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 孙越恒;刘玉雪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 曹玉平 |
地址: | 300072 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于句子结构及上下文的短文本情感值计算方法。拿到任何一个待分析的文本数据;通过基于Java的分词程序,对文本数据进行分词处理;通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;将待分析的文本对应到相应的句子结构,计算每一子句的情感得分;实现待分析文本的上下文情感得分;一部分是出现在该文本之前的评论数据,依据距离当前数据的距离,计算对当前数据造成的影响,另一部分就是新闻本身所产生的情感值;本发明的情感词典的建立基于开源的情感词典:大连理工大学情感词汇本体。结合情感词典,计算短文本的情感值,这种方法计算出的情感值准确率更高,用于舆情分析等领域的效果会更好。 | ||
搜索关键词: | 句子结构 情感词典 短文本 文本 文本数据 分析 字符串匹配算法 计算机编程 分词处理 评论数据 舆情分析 准确率 分词 词汇 | ||
【主权项】:
1.一种基于句子结构及上下文的短文本情感值计算方法,其特征在于,所描述的情感分析方法包括:1)拿到任何一个待分析的文本数据;2)通过基于Java的分词程序,对文本数据进行分词处理,其中,分词程序基于实现已经构建好的情感词典,存储在计算机中,分词的开始,需要读取存储在计算机中的情感词典,情感词典中的情感词共有七种词性;情感词典中的情感词性见下表描述:
3)通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;本发明所描述的句子结构考虑三种;
4)通过计算机编程,将待分析的文本对应到相应的句子结构,计算每一子句的情感得分,其中:确定文本的结构属于并列关系时,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以子句总数的倒数(权重系数),再累加;确定文本的结构属于递进关系是,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以规定的权重系数(递进部分的权重系数更大,因为突出强调),再累加;确定文本的结构属于转折,无需计算转折词之前的子句情感得分,自己算转折词之后的子句的情感得分,整个文本的基于句子结构的得分就是只考虑转折词后面各子句所得的情感值得分;5)通过计算机编程,实现待分析文本的上下文情感得分,其中:主要考虑两部分,一部分是出现在该文本之前的评论数据,依据距离当前数据的距离,计算对当前数据造成的影响,另一部分就是新闻本身所产生的情感值;没有子句时,整段文本的情感值即文本中出现的各个情感词的情感值进行累加。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810567841.9/,转载请声明来源钻瓜专利网。