[发明专利]一种基于语料库的事件群体情感倾向度分析方法在审
申请号: | 202211589441.0 | 申请日: | 2022-12-12 |
公开(公告)号: | CN115936007A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 白洁;刘伟强;刘英;丁浩;任海洋;张玲;陈路路;张学军;李宝莲;高学攀;翟利志;苏召;张建民;钱余发;陈莉 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/216 |
代理公司: | 河北东尚律师事务所 13124 | 代理人: | 王文庆 |
地址: | 050081 河北省石家*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语料库 事件 群体 情感 倾向 分析 方法 | ||
1.一种基于语料库的事件群体情感倾向度分析方法,其特征在于,包括以下步骤:
步骤1,使用网络爬虫从互联网上采集一段时间内的倾向性词汇和表情符号,经过人工对词汇和表情进行分类并设置权重后,再为词汇和表情建立倒排索引,形成语料库;
步骤2,收集被分析群体针对某事件的相关文本素材,形成原始素材集合,从原始素材集合中提取倾向性词汇和表情符号,基于原始素材集合中的每一份文本生成一个情感倾向性属性向量;
步骤3,对于包含倾向性属性向量的文本素材,根据其倾向性属性向量,结合语料库中词汇和表情符号的权重值计算每篇文本素材的倾向度;
步骤4,遍历原始素材集合中的所有素材,对集合内所有素材的倾向度进行带符号累加求和,然后再做归一化处理,求出被分析群体对该事件的倾向度。
2.根据权利要求1所述的一种基于语料库的事件群体情感倾向度分析方法,其特征在于,所述步骤1包括:
步骤1-1,利用网络爬虫从社交媒体平台上收集情感性的词汇和表情符号,形成语料素材库;所述社交媒体平台包括微博、贴吧、论坛;
步骤1-2,以人工标注的方式对语料素材库中的所有词汇和表情符号的情感倾向进行分类,同时根据每个词汇或表情符号的情感强烈程度为其设置一个权重值;
步骤1-3,为了便于在语料库中检索词汇或表情符号,为库中所有经过分类并设置权重值的词汇和表情建立倒排索引。
3.根据权利要求2所述的一种基于语料库的事件群体情感倾向度分析方法,其特征在于,所述步骤2包括:
步骤2-1,以被分析群体及事件为条件,利用网络爬虫在社交媒体平台上收集相关文本素材,形成原始素材集合;所述社交媒体平台包括微博、贴吧、论坛;
步骤2-2,遍历原始素材集合中的所有文本素材,利用分词器对文本进行分词后提取含有情感倾向的词汇和表情符号;
步骤2-3,为每一份文本素材创建一个情感倾向性属性向量,根据步骤2-2提取的词汇和表情符号信息,填充该属性向量的7个属性,形成属性向量集合;7个属性分别为:素材中的情感词汇集合、正面词汇数量、负面词汇数量、素材中的表情符号集合、正面表情符号数量、负面表情符号数量、素材的情感倾向度。
4.根据权利要求3所述的一种基于语料库的事件群体情感倾向度分析方法,其特征在于,所述步骤3包括:
步骤3-1,遍历属性向量集合中的每一个元素的倾向性词汇集合和表情符号集合,在语料库中检索词汇和表情符号,累加计算检索得到的权重值,求出每个属性向量对应的文本素材的总倾向度;
步骤3-2,根据计算得到的文本素材的总倾向度进行极性判断,为该文本素材对应的属性向量中的素材的情感倾向度属性赋值,正面赋值为1,中性赋值为0,负面赋值为-1。
5.根据权利要求4所述的一种基于语料库的事件群体情感倾向度分析方法,其特征在于,所述步骤4包括:
步骤4-1,遍历属性向量集合中每个元素的素材的情感倾向度属性,进行累加求和;
步骤4-2,对累加求和结果进行归一化处理,得到值域为[-1,1]的事件倾向度;
步骤4-3,根据事件倾向度判断被分析群体对某事件的倾向是正面、中立还是负面的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211589441.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种艉轴密封装置轴向位移动态加载试验台
- 下一篇:室内换热装置及恒温恒湿设备