[发明专利]一种基于图模型的中文微博客倾向性检索方法有效
申请号: | 201410504180.7 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104217026B | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 陈国龙;廖祥文;陈胡 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 中文 博客 倾向性 检索 方法 | ||
技术领域
本发明涉及观点挖掘和倾向性分析技术领域,更具体地,涉及一种基于图模型的中文微博客倾向性检索方法,能应用于市场调研、投票预测、广告分析、网络观点挖掘等,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
微博的倾向性检索旨在微博客上检索大众对热点话题的观点看法,要求被检索出的文档除了与给定查询主题相关以外,还必须具有对给定查询主题的主观性评论。因此,它是了解人们对热点话题、组织等各种实体的真实观点和看法的一种有效手段,可应用于市场调研、投票预测、广告分析、网络观点挖掘等项目,具有广阔的应用前景。由于倾向性检索具有重大的研究价值与意义,因而受到国内外众多学者和研究机构的广泛关注。其中,以国内外的顶级评测会议最具代表性:国际检索评测会议(TREC)举办的博客倾向性检索评测(Blog Opinion Retrieval);日本 NTCIR评测(NII Test Collection for IR Systems)的举办多语言倾向性分析评测 (Multilingual Opinion Analysis Task, MOAT);国内中文倾向性分析评测会议(COAE)和中文微博情感分析评测。
在现有技术中,有很多技术方法可用于倾向性检索,传统的检索方法采用两阶段模型方法,在第一阶段首先检索出与给定查询话题相关的文档,然后识别出这些与给定查询相关文档的倾向性,最后综合相关性和倾向性对文档进行排序。该模型结构简单,容易理解,但是缺乏合理的理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型,而将研究重点放在第二阶段,即文档的倾向性识别。国内外对于文档的倾向性识别方法主要有基于倾向词典的统计方法和基于机器学习的倾向性识别方法等。但是微博客中的文本一般比较短、表达不规范,因此,直接采用传统的倾向性检索方法可能难以适应微博客倾向性检索的需求。
在现有技术中,还有借助当前信息检索和文本挖掘领域的最新模型,直接挖掘描述主题的倾向性对文档进行排序的方法。该方法相对于两阶段模型,具有在理论上易解释、对信息需求表达更直接有效等优点,但是该方法可能没有充分考虑微博客中丰富的上下文信息,导致最终的信息需求有所偏差,影响最终的检索结果。
微博经过几年的快速发展,渐渐成为最流行的网络社交媒介,人们越来越倾向于在微博上分享个人对于热点话题、组织等实体的看法、意见及评价。微博成为了网络主观性信息的重要载体,对微博的倾向性进行检索有助于了解人们对于热点话题、组织等实体的真实观点看法,有很好的现实的应用价值和广阔的应用前景。因此,迫切需要一种高效准确的中文微博倾向性检索方法,该方法应该能够快速地发现微博中的倾向性信息,并对微博按照倾向性强度进行排序。
发明内容
本发明的目的在于提供一种基于图模型的中文微博客倾向性检索方法,该方法检索速度快,准确度高,适用范围广,应用性强。
为实现上述目的,本发明的技术方案是:一种基于图模型的中文微博客倾向性检索方法,包括以下步骤:
(1) 对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;
(2) 根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;
(3) 根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表。
进一步的,在步骤(1)中,所述去噪声处理为去除微博中的以下内容:
a) 网页链接;b) 特殊字符;c) 推广相关的字符;d) 表情相关的符号;e) 标点符号;
所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
进一步的,所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合,所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410504180.7/2.html,转载请声明来源钻瓜专利网。