[发明专利]一种对互联网上的同名人物信息进行分类的方法及装置有效
| 申请号: | 201110171903.2 | 申请日: | 2011-06-15 |
| 公开(公告)号: | CN102831128A | 公开(公告)日: | 2012-12-19 |
| 发明(设计)人: | 贾文杰;张姝;王新文;夏迎炬;于浩 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨林森;陈炜 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 同名 人物 信息 进行 分类 方法 装置 | ||
技术领域
本发明一般地涉及互联网数据处理技术领域,尤其是一种对互联网上的同名人物信息进行分类的方法及装置。
背景技术
随着互联网的发展,越来越多的人物都采用网络进行例如通信或者商业洽谈等,因此互联网上的人物信息资源极大丰富。但是因为人物名称在实际应用中存在重名现象,所以互联网上的重名现象也越来越严重。因此,在互联网上采用何种数据处理方法对这些同名的人物进行区分就变的非常重要。
目前现有技术中,人物名称信息分类的方案都是采用基于词的网页聚类的方法,即是将包含相同人物名称的相似网页进行聚类。然而,因为同一个人物可能涉及到不同的事件,而且自然语言的表达方式多样且同义词较多,导致现有技术如果单单从用词来区分人物名称,就很难将不同人物的网页内容区别开来,所以本来属于同一个人物的网页也很难聚为一类。
进一步的,如果对于人物名称信息的区别不够准确,就会使得需要获取准确的人物名称信息的人物不得不重复提交查询请求,这将会导致互联网服务器对于人物重复提交的请求需要不断地响应,从而也增加了互联网服务器的数据处理负担,降低了互联网服务器的性能。
发明内容
有鉴于此,本发明实施例提供了一种对互联网上的同名人物信息进行分类的方法及装置,能够比现有技术更为准确的区别同名的人物,进一步的,能够减轻互联网服务器的处理负担,提升互联网服务器的性能。
根据本发明实施例的一个方面,提供一种对互联网上的同名人物信息进行分类的方法,包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。
根据本发明实施例的另一个方面,提供一种对互联网上的同名人物信息进行分类的装置,包括:检索模块,用于针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;抽取模块,用于分别抽取所述相关网页的人物属性特征和网页主题特征;泛化模块,用于利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;关系挖掘模块,用于按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取初始聚类结果;结果融合模块,用于融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述一种对互联网上的同名人物信息进行分类的方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述一种对互联网上的同名人物信息进行分类的方法。
根据本发明实施例的上述一种方法,通过同义词词典和上下位词典的引入,可以比现有技术更为准确的区别互联网上同名的不同人物,使得对于同名人物的区分效率和精确度大大提升;进一步的,还能够减轻互联网服务器的处理负担,提升互联网服务器的性能。
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出作为本发明实施例提供的第一种方法的流程图;
图2是示出作为第一种方法的步骤S102中抽取人物属性特征的流程图;
图3是示出作为第一种方法的步骤S102中抽取网页主题特征的流程图;
图4是示出作为第一种方法的步骤S103中对人物属性特征进行泛化的流程图;
图5是示出作为第一种方法的步骤S103中对网页主题特征进行泛化的流程图;
图6是示出作为第一种方法的步骤S104中按照泛化后的网页主题特征获取初始聚类结果的流程图;
图7是示出作为第一种方法的步骤S105中一种情况的流程图;
图8是示出作为第一种方法的步骤S105中另一种情况的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110171903.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





