[发明专利]社会标签自动标注的方法以及社会标签自动标注器有效

专利信息
申请号: 201110263798.5 申请日: 2011-09-07
公开(公告)号: CN102289514A 公开(公告)日: 2011-12-21
发明(设计)人: 刘盛华;程学旗;郭嘉丰;刘悦;廖华明;朱亚涛 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 社会 标签 自动 标注 方法 以及
【说明书】:

技术领域

发明属于互联网信息搜索与检索领域,尤其涉及针对以文本为主要内容的网页的分类方法。

背景技术

社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方式。用户可以为每篇文章或每张图片,或每条信息添加一个或多个标签,从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中创建自己的标签,也可以对文章或链接使用标签来标记。简单地,用户可以把一个标签(Tag)理解为一个文章或图片的分类。标签,又被称为软分类,即根据文章或者图片或者信息的意义,由信息的组织者为信息指定一个或者多个“标签”。传统的分类,又称为硬分类,即就是网页发布文章或图片或信息时,所选择的系统现有的固定的分类。标签和硬分类相比,硬分类一般是事先预定好的,即文章或图片属于哪一个分类,事先就已经规定好了。而标签不同,它是在文章或图片完成之后,再由用户添加的。

网页的社会标签标注,又名合作标签标注、社会分类法、社会标引,其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”环境中的数字资源作关联的方法。

随着Web2.0技术应用的兴起,社会标签标注因其在组织内容上的优势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以及查询推荐等网络应用提供支持。但另一方面,网络上的大多网页很少甚至没有标注标签,即使是标签服务网站,如Del.icio.us也只是对网络上小部分链接进行了标注。这就给社会标签的应用带来了很大的不便。

可以想象,如果能为大多网页标注社会标签,无疑会将上述的障碍扫除。因此自动化的社会标签标注,即基于已有的社会标签标注的数据对一个新的网页进行标注,正得到越来越多的关注。

现有的技术主要分为三类:基于本体和关键词抽取的方法,例如参考文献1(Dill,S.,Eiron,N.,Gibson,D.,Gruhl,D.,Guha,R.V.,Jhingran,A.,Kanungo,T.,Rajagopalan,S.,Tomkins,A.,Tomlin,J.A.,and Zien,J.Y.2003.SemTag and Seeker:Bootstrapping the Semantic Web via Automated Semantic Annotation.In WWW’03:Proc.of the Twelfth International World Wide Web Conference.178-186.)中提供一个大规模文本分析和自动语义标注的平台,它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建立仅仅依赖于网页的关键词(Keyword)抽取。另外,关键词直观描述了Web文档的内容,同时社会标签与文档的内容具有一致性,因此关键词成为了生成标签的最直接的方法。基于“词袋”的语言模型假设,文档中词项的出现频率(Term Frequency,TF)(也可简称为词频),反映了该词项的关键程度,于是往往成为的关键词提取的权重之一。例如参考文献2(Chirita,P.A.,Costache,S.,Nejdl,W.,and Handschuh,S.2007.P-tag:large scale automatic generation of personalized annotation tags for the web.In WWW’07:Proceedings ofthe 16th international conference on World Wide Web.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实情况是社会标签的内容不仅仅来源于网页的关键词,它还涉及很多网页文本之外的内容。

基于协同过滤(collaborative filtering,CF)的方法,例如参考文献3(Lu,Y.-T.,Yu,S.-I.,Chang,T.-C.,and Hsu,J.Y.2009.A content-based method to enhance tag recommendation.In In Proc.of IJCAI’09.2064-2069.)提出了一个生成网页标签的协同过滤方法,该方法依据当前网页与其近邻网页内容的相似度大小,从其近邻网页的标签中生成当前网页的标签。然而,基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标签,而没有考虑到语义层面,尤其是同义和反义。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110263798.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top