[发明专利]一种主体话题态度指数的计算方法有效
申请号: | 202011594672.1 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112612895B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 陈中正;王元卓;程伯群;赵俊霞;胡玉龙;刘玉茹;程松庆;王红强;雍胜凯 | 申请(专利权)人: | 中科院计算技术研究所大数据研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/205;G06F40/242;G06F40/58;G06Q50/00 |
代理公司: | 郑州明华专利代理事务所(普通合伙) 41162 | 代理人: | 高丽华 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主体 话题 态度 指数 计算方法 | ||
本发明属于网络信息挖掘技术领域,具体涉及一种主体话题态度指数计算方法。该方法通过采集相关主体的传统媒体、社交数据,然后对数据进行预处理,通过情感分析建模、话题态度指数建模,建立话题态度分析模型,进而分析话题态度指数。通过多层次、多角度的分析目标主体的话题态度指数,能够宏观的反映了国家、地区、主体的话题态度,客户可方便的进行宏观把控,逐级深入。
技术领域
本发明属于网络信息挖掘技术领域,具体涉及一种主体话题态度指数计算方法。
背景技术
随着信息技术不断发展,新闻客户端和各类社交媒体成为公众特别是年轻人的第一信息源,但由于信息量庞大繁杂,通过文章分析总结提炼有用的信息成为一种常用的手段。
目前分析主要是对单个文章的情感分析,这种分析方法存在如下弊端:
1、单文章分析缺少话题识别,很难有针对性分析;
2、单文章分析比较片面,缺少主体的整体分析及主体的层次分析。
发明内容
针对目前主体话题分析方法存在缺少识别度、分析较为片面无法整体分析的缺陷和问题,本发明提供一种主体话题态度指数计算方法。
本发明解决其技术问题所采用的方案是:一种主体话题态度指数的计算方法,包括以下步骤,
步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;
步骤二、数据预处理:包括以下步骤:
(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;
(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;
(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;
(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;
(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;
步骤三、对文章信息数据进行情感分析,包括以下步骤:
(1)对信息数据的情感分类进行设计,分为正面、中立和负面;
(2)根据情感分类的每一类情感构建英文话题情感词典;
(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;
(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;
步骤四、计算话题态度指数,包括以下步骤:
(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;
单篇文章态度得分score=∑(k-score*k-num/num)
式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例。
文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算技术研究所大数据研究院,未经中科院计算技术研究所大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011594672.1/2.html,转载请声明来源钻瓜专利网。