[发明专利]数据处理方法和设备有效
申请号: | 201210202800.2 | 申请日: | 2012-06-15 |
公开(公告)号: | CN103514167B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 张波;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,陈炜 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
技术领域
本发明涉及一种数据处理方法和设备,更具体地,涉及一种能够挖掘在特定时间区间内不同用户群所关注的话题的、基于微博的数据处理方法和设备。
背景技术
近年来,随着互联网技术的发展,微博(micro-blog)已逐渐成为人们沟通交流的重要方式之一。如何在庞杂的网络数据中挖掘所需的信息以更高效地进行数据处理已对互联网技术提出了新的挑战。
例如,对于一般的上班族,在工作日,其在微博的活跃时间区间可能集中在例如上午8点半至9点半和下午1点至2点之间(即,投入工作之前的一段时间)以及晚上8点半至10点半(即,饭后休闲时间)等等,而在周末,其活跃时间区间可能大大不同于工作日期间的活跃时间区间。因此,需要一种能够确定不同用户群在不同活跃时间区间内所关注的话题以有针对性地进行信息发布和获取,从而大大提高数据处理效率的技术。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
因此,鉴于上述情形,本发明的目的是提供一种数据处理方法和设备,其能够通过针对特定微博用户群的不同活跃时间区间,确定在该活跃时间区间内各用户群所关注的话题,从而可以使得用户能够有针对性地发布信息以及高效地获取所需的信息。
为了实现上述目的,根据本发明的实施例的一个方面,提供了一种数据处理方法,包括:活跃时间区间确定步骤,用于确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;关键词提取步骤,用于从所确定的活跃时间区间内的所有微博提取关键词;以及话题确定步骤,用于基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。
根据本发明的优选实施例,在活跃时间区间确定步骤中,确定具有相似活跃习惯的微博用户群可以进一步包括用户向量构建子步骤,用于根据微博用户以往发布微博的时间和数量来构建具有预定维数的用户向量;边确定子步骤,基于各用户向量之间的相似度,确定用户节点之间的边;微博用户群构建子步骤,用于基于所确定的边,构建具有相似活跃习惯的微博用户群;以及关注用户确定子步骤,用于基于各微博用户的粉丝数量、发布的微博数量、对该微博用户所发布的微博的回复数量以及对该微博用户所发布的微博的转发数量中的一个或多个,确定该微博用户的权威度,从而基于权威度从微博用户群中选择预定数量的微博用户作为关注用户。
根据本发明的另一优选实施例,在活跃时间区间确定步骤中,基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间可以进一步包括:微博数量统计子步骤,用于统计在预定时期的各个时段内所述关注用户发布的微博的数量,从而得到与时间相关的微博数量序列;序列递归分割子步骤,用于对所统计的微博数量序列进行递归分割,从而得到一个或多个分割点;以及活跃时间区间选择子步骤,用于在基于所得到的分割点确定的时间区间中选择标准方差较大的前N个时间区间作为所述活跃时间区间,其中N大于等于1,其中,在序列递归分割子步骤中:针对当前序列中的每个点,根据以下公式进行计算:
AnthorV(i)=|L1(i)|*Var(L1(i))/|L|+|L2(i)|*Var(L2(i))/|L|
DiffV(i)=Var(L(i))-AnthorV(i)
其中,|L1(i)|、|L2(i)|分别表示假定i为当前分割点对当前序列分割后得到的两个子序列的长度,|L|表示当前序列的长度,Var()表示当前序列或子序列的标准方差;
找出当前序列中DiffV(i)最大的点;以及
如果该点的DiffV(i)小于预定阈值,则停止递归分割,否则取该点作为当前序列的分割点将当前序列分成两个子序列,并继续对这两个子序列分别进行递归分割。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210202800.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阴阳型耐磨钢球
- 下一篇:一种除水剂及其在淬火油除水的新方法中的应用