[发明专利]确定语料与实体的相关性的方法和装置及分类器训练方法有效
申请号: | 201210212662.6 | 申请日: | 2012-06-21 |
公开(公告)号: | CN103514194A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | 张姝;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 语料 实体 相关性 方法 装置 分类 训练 | ||
技术领域
本发明一般地涉及信息挖掘领域。具体而言,本发明涉及一种用于确定语料与给定实体的相关性的方法和装置及相关的分类器训练方法。
背景技术
微博(例如,推特、搜狐微博和腾讯微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对政府政策的响应、人们对商品的反馈和评论等已受到研究团体的大量关注。存在一些研究,诸如观点挖掘和在线声誉管理等,它们聚焦于监控用户生成的媒体。这些研究的关键内容之一在于首先要获得与所研究实体(诸如公司的机构)有关的信息。
获得与所研究实体有关的信息将面临以下两个问题。首先,微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体。它允许用户生成不超过140个字符的消息。故只能获得小的上下文信息。因此,可供比对的信息量相对较少。第二,实体名称本身可能是模糊的,这也会增大分析的难度。例如,苹果公司的名称Apple也可以表示作为水果的苹果。亚马逊公司的名称Amazon也可以表示亚马逊河和亚马逊丛林。可见,确定微博与实体之间是否相关只能依赖于微博本身较少的信息量并面临实体名称具有歧义的问题。如果不能准确有效地判断微博与实体之间的相关性,就难以针对实体搜集和分类微博,并进而进行深入研究,如分析人们谈论特定实体的相关内容。
此外,通常采用分类器来针对实体对微博进行分类。简单地说,通过针对特定实体(例如,苹果公司)搜集大量已标记的训练语料(即标注了该微博是否是与苹果公司相关的微博),利用所搜集的语料对分类器进行训练,就可以使用训练好的分类器针对特定实体(苹果公司)分类语料(如未标记的大量微博),即判断语料是否与特定实体相关。然而,针对每一个特定实体训练一个分类器是繁复的。因此,也希望能够使得训练数据中的实体和测试数据中的实体可以不同,避免将分类器训练为针对特定实体。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够确定语料与实体的相关性的方法和装置及相关分类器训练方法。该方案对于具有较少信息量的微博,能够不针对特定实体训练分类器,训练好的分类器能针对特定实体进行分类,即确定语料与特定实体的相关性,并且能够有效地处理具有歧义的实体名称,避免与该实体无关的、与具有相同实体名称的其它实体相关的语料被分类为与该实体相关。
为了实现上述目的,根据本发明的一个方面,提供了一种用于确定第一组语料中的每个语料与第一给定实体的相关性的方法,包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对所述第二组语料进行分类,以确定所述第二组语料中的每个语料与所述第一给定实体的相关性,从而得到作为对所述第二组语料的标注结果的机器标注语料;基于所述通用特征和从所述机器标注语料中选取的与所述第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用所述机器标注语料,训练针对所述第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的所述自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。
根据本发明的另一个方面,提供了一种用于确定语料与给定实体的相关性的分类器的训练方法,包括:获取与给定实体相关联的实体主页页面、具有网络百科全书属性的网页页面、搜索引擎返回的链接页面、搜索引擎返回的相关页面中的至少一种;从所获取的页面中提取一元词、二元词、二元字符、三元字符、元数据中的关键词、URL地址中包括的主机名中的至少一个,作为机构信息;从与给定实体相关联的已经标注好的训练语料中提取一元词、二元词、二元字符、三元字符、URL地址中包括的主机名中的至少一个,作为语料信息;基于所述机构信息和所述语料信息,计算通用特征,所述通用特征包括:语料与实体主页页面的相关性、语料与网络百科全书页面的相关性、语料与搜索引擎链接页面的相关性、语料与搜索引擎相关页面的相关性中的至少一种;以及基于所计算的通用特征,结合实体名称相关的启发式规则,利用所述训练语料的标注结果,训练所述分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210212662.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆锯片切割机
- 下一篇:一种灯罩裁边机的切边机构