[发明专利]一种主体话题态度指数的计算方法有效
申请号: | 202011594672.1 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112612895B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 陈中正;王元卓;程伯群;赵俊霞;胡玉龙;刘玉茹;程松庆;王红强;雍胜凯 | 申请(专利权)人: | 中科院计算技术研究所大数据研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/205;G06F40/242;G06F40/58;G06Q50/00 |
代理公司: | 郑州明华专利代理事务所(普通合伙) 41162 | 代理人: | 高丽华 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主体 话题 态度 指数 计算方法 | ||
1.一种主体话题态度指数的计算方法,其特征在于:包括以下步骤,
步骤一、数据采集:采集时间段内全球范围的文章,采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类;
步骤二、数据预处理:包括以下步骤:
(1)收集时间段内全球范围针对某一话题的文章信息数据,其中信息数据包括百科数据、社交媒体数据和传统媒体数据;
(2)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;
(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语;
(4)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;并同时提取报道的归属地和报道地;
(5)将提取的主体、报道地与基础知识库进行链接,采用一致ID进行标识;
步骤三、对文章信息数据进行情感分析,包括以下步骤:
(1)对信息数据的情感分类进行设计,分为正面、中立和负面;
(2)根据情感分类的每一类情感构建英文话题情感词典;
(3)根据情感分类构建具有规模的真实语料,并对语料中的每篇文章进行话题态度标注;
(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型;
步骤四、计算话题态度指数,包括以下步骤:
(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分,得到单篇文章态度得分和文章话题态度得分;
单篇文章态度得分score=∑(k-score*k-num/num)
式中:k-score为句子情感分类得分,一篇文章分很多句子,每个句子都有自己情感类型,类型包括:Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7);num是文章分句数量,k-num/num是各项分类数据占句数比例;
文章话题态度得分=Sigmoid(单篇文章态度得分*文章权重)*100
文章权重:对应每篇文章的权重;根据文章的来源、人工权重进行设计,取值:0——+∞,默认为5;
(2)根据时间段内每个主体发表的文章的情感得分,和不同主体的文章主体指数,计算得到各个主体的话题态度指数,所述主体包括传统媒体和社交媒体;
主体话题态度得分=Sigmoid(∑(文章话题态度得分*文章主体指数)/文章数量)*100
∑主体时间段内全部文章态度得分*文章主体指数之和;
(3)计算时间段内各个国家/地区不同主体的话题态度,进行国家/地区范围文章整体态度计算,得到各个国家/地区的话题态度指数,
(4)根据时间段内全球范围的文章态度整体得分计算得到全球范围的主体话题态度指数即为主体话题指数。
2.根据权利要求1所述的主体话题态度指数的计算方法,其特征在于:步骤一中,针对传统媒体数据通过通用新闻采集器,配置媒体网站地址进行自动化采集抽取,然后对采集结果进行抽样检查,对采集结果较差的数据配置特定规则进行干预;针对社交媒体通过定制的采集器,利用人工维护的账号池进行自动化采集。
3.根据权利要求1所述的主体话题态度指数的计算方法,其特征在于:采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类,步骤为:
(1)读入一条新文本,文本转化向量;
(2)判断向量与已存在簇的相似度;关于相似度的计算,若文本较长直接使用tfidf进行判别;或者使用文本向量的cos值判别,或者直接使用jaccard相似度判别;
如果大于阈值,则加入簇执行完毕;
如小于阈值,则判断簇数量是否超过设置簇值,未超过簇值时,直接创建簇;否则删除已存在簇中最无用的,之后再新建簇。
4.根据权利要求1所述的主体话题态度指数的计算方法,其特征在于:传统媒体的文章主体指数是以媒体的权威度和文章本身的阅读量、转发量经归一化处理后的传统媒体计算系数;社交媒体的文章主体指数是以社交媒体的影响力、社交媒体账号的权威度、文章本身的点赞数、评论数、转发数经归一化处理后形成的社交媒体计算系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算技术研究所大数据研究院,未经中科院计算技术研究所大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011594672.1/1.html,转载请声明来源钻瓜专利网。