[发明专利]一种基于微博类型的集成微博谣言识别方法有效
申请号: | 201610489023.2 | 申请日: | 2016-06-27 |
公开(公告)号: | CN106202211B | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 梁刚;杨进;杨文太;谢凯;董向博;冯程;陈良银 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 51244 成都其高专利代理事务所(特殊普通合伙) | 代理人: | 廖曾 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于微博类型的集成微博谣言识别方法,构建用于用户微博谣言分类器训练与测试的数据集,构建训练数据类型分类器与谣言分类器两类分类器,运用谣言分类器对收集到的微博数据进行谣言甄别;使用分布式爬虫从微博平台上定期收集微博数据,收集的数据包括微博内容,微博用户数据,微博传播结构与微博用户行为数据共计四类数据;对收集的数据清洗,提取四类数据对应的数据特征;构建特征向量,表征收集的每一条微博信息;使用训练数据类型分类器对收集的微博进行类型分类;选择对应类型的谣言分类器对微博谣言进行甄别;通过数据类型和用户行为的方式进行微博谣言识别。 | ||
搜索关键词: | 一种 基于 类型 集成 谣言 识别 方法 | ||
【主权项】:
1.一种基于微博类型的集成微博谣言识别方法,其特征在于:首先构建用于用户微博谣言分类器训练与测试的数据集,在此基础上构建训练数据类型分类器与谣言分类器两类分类器,运用谣言分类器对收集到的微博数据进行谣言甄别;包括以下具体步骤:/n步骤1):使用分布式爬虫从微博平台上定期收集微博数据,收集的数据包括微博内容,微博用户数据,微博传播结构与微博用户行为数据共计四类数据;/n步骤2):对收集的数据清洗,提取四类数据对应的数据特征;提取四类数据对应的数据特征的方法包括基于内容、基于用户、基于微博传播结构以及基于用户行为特征方法;/n基于用户行为特征方法具体为:根据用户在发送正常微博与谣言微博以及用户在读取正常微博与谣言微博的行为差异建立用于谣言识别的用户行为特征集,用户行为特征集包括微博自有特征和微博隐藏特征;微博隐藏特征包括微博评论质疑比,微博辟谣数与微博可能源头数;/n步骤3):构建特征向量,表征收集的每一条微博信息;/n步骤4):使用训练数据类型分类器对收集的微博进行类型分类,具体为:训练数据类型分类器使用基于内容的特征,基于用户的特征与基于微博传播结构的特征构建特征向量表征微博,训练数据类型分类器将收集的微博根据微博内容进行分类;收集的微博根据微博内容分为交互型微博、问题性或求助型微博、日志型微博、商业型微博、娱乐八卦型微博、社会新闻型微博、评论型微博与辟谣型微博八类;利用微博中的内容特征,用户特征、传播特征以及用户行为的特征,根据微博类型类别,分别训练对应的谣言分类器,利用逻辑回归对四类分类器进行集成构建最终的谣言分类器;/n步骤5):根据步骤4)的结果,选择对应类型的谣言分类器对微博谣言进行甄别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610489023.2/,转载请声明来源钻瓜专利网。