[发明专利]用于检测社交媒体中的社区的方法、计算机程序和计算机有效
申请号: | 201280062988.3 | 申请日: | 2012-11-22 |
公开(公告)号: | CN103999082B | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 榎美纪;R.H.P.鲁迪;伊川洋平 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/10 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 胡琪 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 社交 媒体 中的 社区 方法 计算机 程序 | ||
技术领域
本发明涉及一种信息处理技术,并且更具体地,其涉及一种用于更快和更精确地检测社交媒体中的社区(共享例如爱好和兴趣的属性的社交媒体用户组)的技术。
背景技术
结合社交媒体的广泛使用,存在从用户已在社交媒体上发送的信息提取社区和由那些社区共享的爱好和兴趣的商业需求。当将社交媒体上的全部信息作为目标时,各种成本将很高,因此通常执行从社交媒体采样的信息提取社区以及相关爱好和兴趣。通常,聚类(clustering)方法被用作用于提取社区以及相关爱好和兴趣的技术。具体地,提取信息内的词语、计算特征向量、以及基于那些向量执行聚类。
引用列表
专利文献
专利文献1:日本专利公报No.4369104
专利文献2:日本公开待审No.2009-301334
发明内容
技术问题
然而,使用这种先前的方法,与该正被采样的信息一致,出于下列原因存在对最初社区最可能相同的节点进行划分的危险。第一,与聚类无关的词语可被确认为特征向量的主分量。第二,不同于常见表示的词语的出现频率较小,并且从而它们对聚类的影响较小并且存在它们将不被拾取的可能性。第三,并且尤其对于微博,许多陈述涉及问候和日常活动,并且与预期目标不匹配的这些词语变为被包括在特征向量中。
本发明是其中考虑了这种问题的发明,并且其目的是提供一种能够更快速和更精确地检测社交媒体中的社区的技术。
本发明是一种通过使用计算机将社交媒体的多个用户聚类的方法,其中多个用户的每一个发送消息。所述方法包括下列步骤:基于同伴(companion)消息的关系,从多个用户提取多个部分社区;基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示出同伴部分社区的相似度的第一相似度程度;基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区。
这里,消息可以包括响应于从单个用户接收的单个消息由其他用户发送的其他消息,并且用于提取的步骤可以基于同伴消息是否与来自单个用户的所述单个消息和响应于所述单个消息接收的其他消息对应而从多个用户提取多个部分社区。此外,用于提取的步骤可以是<强连通分量(strong connected component)>或其可以是<p-clique>。
此外,社交媒体可以存储用户简档信息,并且用于计算第一相似度的步骤可以基于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档信息之间的关系来计算第一相似度。
此外,社交媒体可以提供某个用户关注某个其他用户的功能,并且用于计算第一相似度的步骤基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第一相似度。此外,第一相似度可以示出通过一些其他用户在属于一个部分社区的用户和属于其他部分社区的用户之间是否存在关注/被关注关系,用于计算第二相似度的步骤可以基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第二相似度。
用于计算第二相似度的步骤可以基于由属于一个部分社区的用户发送的消息内的特征词语与由属于其他部分社区的用户发送的消息内的特征词语是否相似而计算第二相似度。这里,可以使用社区的消息的特征向量<tf*idf>提取特征词语。
此外,消息可以是从在规定条件下在社交媒体上发布的消息采样的消息。此外,消息也可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。此外,社交媒体可以是微博。
此外,社交媒体的宿主计算机可以通过网络连接到对多个用户聚类的计算机,并且进一步提供用于聚类计算机接收响应于来自聚类计算机的规定条件请求而从宿主(hosting)计算机发送的消息的步骤。可以进一步包括用于在聚类计算机的存储器装置中存储接收的消息的步骤。
所述方法可以进一步包括用于通过使用图形用户界面输出整合社区的步骤。此时,整合社区可以与特征词语一起输出。
显然,在其中本发明被理解为计算机程序和计算机系统的情况下,其提供与其中本发明被理解为上面描述的方法的情况基本上相同的技术特征。
发明的有利效果
通过使用本发明,能够更快速地和更精确地检测社交媒体中的社区。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280062988.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子定价标签系统和方法
- 下一篇:发动机控制装置