[发明专利]面向事件检测的社交网络短文本数据过滤方法在审

专利信息
申请号: 201810980312.1 申请日: 2018-08-27
公开(公告)号: CN109063185A 公开(公告)日: 2018-12-21
发明(设计)人: 费高雷;赵越;于娟娟 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 短文本 社交网络 事件检测 数据过滤 分类 预处理 文本 分类特征 价值信息 句法特征 数据提取 无用信息 影响特征 用户背景 分类器 算法 抽取 过滤 保留 分析
【说明书】:

发明公开了一种面向事件检测的社交网络短文本数据过滤方法,其包括对社交网络短文本数据进行预处理,对社交网络短文本数据提取特征,训练GBDT分类器对社交网络短文本数据进行分类。本发明分别从用户背景特征,文本句法特征以及文本影响特征三个方面进行分析,进而抽取了20维分类特征,最后利用GBDT算法对短文本数据进行分类,对于分类为无用信息的数据进行过滤,保留潜在有用的价值信息数据,从而达到为事件检测提供有效的数据输入的目的。

技术领域

本发明属于自然语言处理技术领域,具体涉及一种面向事件检测的社交网络短文本数据过滤方法。

背景技术

随着web2.0、社交网络和移动互联网等技术的发展,信息的爆炸式增长的趋势越来越明显,传统的信息交流方式受到了极大的冲击。对于目前主流的社交媒体平台,如Twitter、Facebook等,用户可以通过上述的平台,随时随地的讨论感兴趣的话题,分享实时新闻等。由于社交媒体用户数巨大,发布信息的方式简单,信息传播速度快,使得社交网络中蕴含着丰富的信息。然而,社交网络在带来丰富信息的同时,爆炸式的信息也使得对社交网络数据进行有效的分析带来了很大的困难。因此,如何对社交网络数据进行有效挖掘成为了学术界研究的热点问题。

基于社交网络的事件检测是对社交网络数据进行挖掘的重要研究内容之一,其基本思路是给定关键词或用户账号集合,通过调用社交网络平台的API接口获得实时文本数据,然后对数据进行聚类,从而发现数据中的热点讨论话题,并将这些话题进行特征分析,最终建立话题与现实事件的映射关系,发现现实生活中真实发生的事件。但现有的基于社交网络的事件检测方法中很少详尽的考虑对于社交网络短文本数据中噪声数据的过滤,因此事件检测的输入中存在大量噪声,导致事件检测结果中存在很多虚警事件,影响事件检测的效率和准确率。对于这个问题,可以通过文本分类技术,将事件检测输入数据中噪声数据进行过滤,保留输入中潜在有用的价值数据,从而提高事件检测的有效性。

文本分类问题,是自然语言处理领域的一个很经典的问题。其研究可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,逐渐发展为利用一系列的知识工程建立专家系统,从而实现分类,但因为其知识的构建比较复杂,费时费力,并且覆盖范围和准确率都很有限。后来,随着统计学习方法在自然语言处理中的应用,特别是社交媒体的发展,逐渐形成了特征工程与分类算法结合的分类模型。在特征工程中,通常是文本分类技术的关键,主要分为文本预处理、特征提取、文本表示三个方面,最终实现把文本转换为计算机可理解的格式,并封装足够用于分类的信息,即具有很强的特征表述能力。分类算法,通常是统计分类方法,很多常用的机器学习分类算法在文本分类领域都有广泛的应用,比如:朴素贝叶斯分类算法,支持向量机(SVM),最大熵等。

基于社交网络的事件检测能够帮助人们在第一时间掌握全球最新资讯,是当前学术界和工业界共同关注的问题。但是社交网络数据中包含有大量噪声,因此对社交网络文本进行过滤,能够为事件检测提供有效输入。社交网络短文本数据相比于传统的长文本数据具有数据量大、噪声多、信噪比低、表述不规范、文本长度短等特点,故依赖于文本词频信息的传统词袋模型不适用,并且会产生特征稀疏以及维度灾难的问题。现有社交网络短文本数据的分类为了上述问题,主要集中在基于语义特征和基于结构特征的分类研究中,但前者需要依赖于大语料,而后者的特征选择方法简单、单一,所选特征可扩展性、移植性差,均没有取得很好的效果。并且二类方法均没有考虑到短文本数据所处的社交网络环境这一点,没有考虑文本发布者的背景特征,文本统计句法特征以及文本在社交网络的后续影响信息对于短文本数据分类的有利影响。

发明内容

本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种面向事件检测的社交网络短文本数据过滤方法,从海量的社交网络数据中过滤无用的数据,保留潜在有用的价值数据,为事件检测提供有效的、有针对性的输入数据。

本发明的技术方案是:一种面向事件检测的社交网络短文本数据过滤方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810980312.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top