[发明专利]基于开放知识库的短文本语义概念自动化扩展方法及系统有效
申请号: | 201310081984.6 | 申请日: | 2013-03-14 |
公开(公告)号: | CN103150382A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 程学旗;刘盛华;肖永磊;王元卓;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 开放 知识库 文本 语义 概念 自动化 扩展 方法 系统 | ||
技术领域
本发明属于互联网信息搜索与数据挖掘领域,尤其涉及对以社会化媒体短文本为主要内容的语义概念自动化扩展。
背景技术
在信息检索领域,语义扩展是公认的能够有效提高系统查全率的技术之一。其基本思想是利用与查询关键词相关的词语对查询进行修正,以找到更多相关的文档,提高查全率,然而,基于关键词的传统查询扩展方式常常带来很多语义理解的错误,如同义词问题,歧义问题等,在提高查全率的同时难以保证查准率。产生这种问题的根本原因有二方面:首先在现实生活中描述同样的对象或者事件的用词存在着多样性,如“东西”至少有五种含义,只有一种与用户的预期相关。其次,检索只是根据查询词的词形而不是词义进行匹配查找,这样会导致大量和查询词相关但是文档中又没有出现该查询词的信息丢失,如输入“体育新闻”后,只有那些明显出现“体育新闻”的文档才能够被检索到,但是像网球、田径等相关的新闻会被遗漏掉。为了解决这些问题,人们提出了基于概念的语义查询扩展,用概念来描述查询主旨,找到与查询语义相关的概念集合对查询进行扩展。按照概念的来源主要分为两类,一类是基于语义关系/语义结构的扩展方法,另一类是基于大规模语料库的扩展方法。
基于语义关系/语义结构的扩展方法通常依据已有的词典/本体,如WordNet(http://wordnet.princeton.edu/)、HowNet(http://www.keenage.com/)以及领域词典/本体,如医学领域的MeSH(http://www.nlm.nih.gov/mesh)等。这类方法都假定待扩展的词属于特定领域,而且基本上都是人工编辑,有很强的局限性。
基于语料库的扩展方法主要利用统计学习的方法进行语义扩展。主要思想源于语料库中共现性大的词语往往相关性也很大。通过互信息,主题模型等方法计算词语之间的语义相关度,然后选取语义最相关的几个词进行语义扩展。因为语料库既可以比较接近生活,又可以针对特定的领域,相对于基于语义关系/语义结构的方法更加灵活,更具扩展性。
随着Web2.0的发展,微博、照片分享网站Flicker、视频分享等社会化媒体已深入人们的日常生活,其中衍生出来的查询推荐、标签推荐、新闻推荐、问答、评论等应用产生了大量的网络短文本内容。这种社会化媒体上的短文本按其时间属性组织后形成文本消息流,包含着网民们的许多思想观念与倾向,对其进行深入的挖掘有重大的应用价值和学术意义。然而,文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。
以微博为例,微博作为新的Web2.0应用平台,已经得到快速的发展,并逐渐成为用户群最庞大,最活跃的网络媒体之一。Twitter自从创建以来,最近几年用户数量突飞猛进,已经成为最大的在线微博平台,拥有超过6500万的用户,每天超过2亿的微博信息(tweets)。2011年在中国也已经有14%的互联网用户开始使用微博,并呈逐年上升的趋势。微博传播迅速,极大的方便了人们的交流,但是由于人们对微博信息流的接受能力有限,往往不能即时有效的获取自己感兴趣的信息。微博快速产生的数量巨大的信息已经成为多种应用的重要信息源,比如新闻话题发现和追踪,广告投放等。不同于传统的长文本,微博具有以下特点:
1)微博里面用语大多随意,具有不规范性,噪声比较大。
2)微博长度的限制,使其具有天然的极稀疏性,很难提取出有效的内容特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310081984.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种线路压变谐波抑制装置
- 下一篇:一种母线残压保持装置