[发明专利]确定微博与给定实体的相关性的方法和装置有效
申请号: | 201110414476.6 | 申请日: | 2011-12-13 |
公开(公告)号: | CN103164428A | 公开(公告)日: | 2013-06-19 |
发明(设计)人: | 张姝;孟遥;夏迎炬;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;王娜丽 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 给定 实体 相关性 方法 装置 | ||
技术领域
本发明涉及微博信息挖掘领域,具体涉及确定微博与给定实体的相关性的方法和装置。
背景技术
微博(例如,推特、搜狐微博和腾讯微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对政府政策的响应、人们对商品的反馈和评论等已受到研究团体的大量关注。存在一些研究,诸如观点挖掘和在线声誉管理等,它们聚焦于监控用户生成的媒体。这些研究的关键内容之一在于首先要获得与所研究实体(诸如产品、公司或特定事件)有关的信息。
获得与所研究实体有关的信息将面临以下两个问题。首先,微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体。它允许用户生成不超过140个字符的消息。可获得小的上下文信息。因此,监控和分析这些消息是具有挑战性的。此外,实体名称可能是模糊的,导致这是个有挑战的任务。例如,苹果公司的名称Apple也可以表示水果苹果。亚马逊公司的名称Amazon也可以表示亚马逊河。过滤可疑名称匹配对于有效地检测和分析人们谈论该实体的相关内容来说是非常重要的。其次,训练数据中的组织和测试数据中的实体不同,这导致难以将分类器训练为针对特定实体。
因此,需要一种能够解决上述问题的技术。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种确定微博与给定实体的相关性的方法和装置。
根据本发明的一个方面,提供了一种确定多个微博中的每个微博与给定实体的相关性的方法,包括:提取多个微博中的每个微博的特征;根据所提取的特征确定微博之间的相似度;以及利用所确定的微博之间的相似度,基于半监督分类器来确定多个微博中的每个微博与给定实体的相关性。
根据本发明的另一个方面,提供了一种确定多个微博中的每个微博与给定实体的相关性的装置,包括:微博特征提取单元,被配置为提取多个微博中的每个微博的特征;相似度确定单元,被配置为根据所提取的特征确定微博之间的相似度;以及相关性确定单元,被配置为利用所确定的微博之间的相似度,基于半监督分类器来确定多个微博中的每个微博与给定实体的相关性。
根据本发明的又一个方面,提供了一种用于实现上述方法的计算机程序。
根据本发明的再一个方面,提供了一种计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标签来表示。
图1是示出根据本发明的实施例的确定微博与给定实体的相关性的方法的流程图;
图2是示出根据本发明的实施例的基于标签传播算法来确定微博与实体的相关性的方法的流程图;
图3是示出根据本发明的实施例的结合有监督分类器和半监督分类器来确定微博与给定实体的相关性的方法的流程图;
图4是示出具有百科全书属性的网页的示意图,该网页用于消除词汇的歧义;
图5是示出相关词查询网页的示意图,该网页用于查找与特定词汇相关的词汇;
图6是示出根据本发明的实施例的确定微博与给定实体的相关性的装置的配置的框图;
图7是示出根据本发明的实施例的相关性确定单元的示意性配置的框图;
图8是示出根据本发明的实施例的确定微博与给定实体的相关性的装置的一个示例性配置的框图;
图9是示出根据本发明的实施例的必要性判断单元的配置的框图;
图10是示出根据本发明的实施例的种子选择模块的配置的框图;以及
图11是示出可以用于实施根据本发明的实施例的确定微博与给定实体的相关性的方法和装置的计算设备的举例的结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110414476.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:恢复误删除文件的方法及移动终端
- 下一篇:数据存取方法