[发明专利]面向微博的情感实体搜索系统有效

专利信息
申请号: 201310461443.6 申请日: 2013-09-29
公开(公告)号: CN103544242A 公开(公告)日: 2014-01-29
发明(设计)人: 郝志峰;温雯;蔡瑞初;杜慎芝;陆印章;程杰 申请(专利权)人: 广东工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510006 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 情感 实体 搜索 系统
【说明书】:

技术领域

本发明涉及文本情感挖掘及信息检索领域,具体涉及一种面向微博的情感实体搜索系统,属于面向微博的情感实体搜索系统的创新技术。

背景技术

近年来,随着互联网和社交网络的发展,包括微博在内的社交网络数据正以指数形式快速增加。微博的不断增长使得人们可检索的信息越来越丰富,但是海量的微博数据也使得人们难以迅速、准确地找到所需要的信息。同时,由于微博行文上的自由性,情感信息的抽取相对于传统文本更为困难,在对舆情监控和产品调研行业具有重要意义的微博情感信息检索领域,目前还未见成熟的技术和系统。

面向微博的情感实体搜索方法和系统主要涉及三类相关的关键背景技术。其一为查询扩展技术;其二为情感实体抽取技术;其三为情感极性判别技术。以下分别对上述三类背景技术分别加以阐述和分析。

1查询扩展技术

直接通过关键词进行查询的传统检索系统或搜索引擎可以获得一些相关的检索结果,但是这种利用简单匹配的方式查找的结果较为机械,不能真正理解用户的查询意图,返回的结果也就无法让人满意。因此寻找一种方法可以很好的理解用户的查询意图,提高检索的查准率和查全率成为解决上述问题的热点。查询扩展技术正是这样的一种方法。通过查询扩展可以更准确的理解用户查询需求,帮助用户更快更准确地获得需要的信息。经典的查询扩展方法主要包括基于全局分析、基于局部分析、基于用户查询日志和基于关联规则四种。近年,有学者提出基于本体(或领域本体)和语义网的查询扩展方法。

基于全局分析的查询扩展方法是通过挖掘全部数据集或整个数据库的文档中的词语相关度进行扩展的。其优点在于可以对整个数据集进行充分的分析,能够了解文档的方方面面;其缺点是,由于通常的数据集都过大,因此对分析的时间和设备的要求都很高,更不可能在线完成。现有的检索系统都是在离线完成全局词语的分析,对于需求实时的搜索引擎更是难以采用这种方法。

基于局部分析的方法包括相关反馈与伪相关反馈两种。相关反馈即是先通过用户初始查询,得到检索结果,然后再由用户人工判断结果文档的相关与不相关,分放于两个不同的文档集。这样就获得了标记的相关文档,作查询扩展前只需要对这些文档进行词语分析即可。这样做的优点是只处理相关部分的文档,使得文档数量减少了,而且相关度也会有说提升;其缺点是需要大量的人工反馈,这需要大量的人力,而且仍然需要大量的实验进行调试处理。这样现有的检索系统或搜索引擎少有采用这种方法的。

伪相关反馈方法是利用用户初次查询获得的前n篇结果进行分析,其理论假设是认为结果中与查询词相关的文档会出现在检索的最前面,也就是认为这些文档就是相关度最高的文档,通过分析这些文档获得扩展词并进行查询扩展。专利申请号为CN20091032193.5,发明名称为“查询扩展方法及查询扩展系统”就是利用伪相关反馈的专利例子。其主要思想是通过将用户初次查询所得结果靠前的部分文档通过聚类分析并生成簇,对簇进行排序后,再从排名在前一定数目的簇中提取扩展词,把所得的扩展词添加到原查询中,形成扩展词结合然后进行二次检索。这种方法的缺点是在于不能保证初次查询的靠前的文档就是相关的,如果是不相关的话,得出的扩展词可能会使得二次检索的结果更不相关,检索性能就会降低。

基于用户查询日志的方法是现在搜索引擎通用的一种扩展方法,该方法是通过对用户的查询日志进行词语分析,将共现的词语作为扩展词。专利申请号为CN200710097501.6,发明名称为“查询扩展方法和装置以及相关检索词库”和专利申请号为CN200810115470.7,发明名称为“一种扩展查询的方法、装置及搜索引擎系统”就是对用户输入的查询词进行分析得到相关的词语,然后将这些词语作为扩展词。这种扩展方法首先也需要获得大量的查询日志,这需要一个积累的过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310461443.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top