[发明专利]一种基于图模型的中文微博客倾向性检索方法有效
申请号: | 201410504180.7 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104217026B | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 陈国龙;廖祥文;陈胡 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 中文 博客 倾向性 检索 方法 | ||
1.一种基于图模型的中文微博客倾向性检索方法,其特征在于,包括以下步骤:
(1)对微博进行预处理,包括去噪声、分词、停用词处理,得到预处理后的微博;
(2)根据预先收集的并经过预处理的倾向性微博集,并基于图模型方法计算倾向词典中每个倾向词的倾向性权重,反映每一个倾向词不同的倾向性强度;
(3)根据微博和给定的查询主题,计算每条微博的相关性得分,然后对微博进行倾向性得分计算,得到每条微博的倾向性得分,最后将每条微博的相关性得分与倾向性得分的乘积作为每条微博最终的排名得分,并基于所述排名得分对微博进行排名,得到最终的微博列表;
所述步骤(2)中,所述倾向性微博集是从微博采集并经过人工标注倾向性的微博集合,所述倾向词典由相关知识库中的中文正面情感词语、中文负面情感词语、中文正面评价词语和中文负面评价词语组成,并通过如下的图模型方法计算每个倾向词的倾向性权重:
在由倾向性微博集和倾向词典组成的二分连接图中,Ht={ti}为倾向词典,Ad={dj}为倾向性微博集,当一个倾向词出现在一条倾向性微博中,便有一条边连接该倾向词与倾向性微博,所对应的连接边由Etd={eij|ti∈Ht,dj∈Ad}来表示,每条连接边的权重由如下公式计算:
其中表示倾向词ti在倾向性微博dj中出现的次数,len(dj)为倾向性微博dj的长度;首先每条倾向性微博的初始得分设置为每个倾向词的得分设置为m和n分别为所有倾向性微博的条数和所有倾向词的个数,并根据如下的迭代公式计算倾向性微博和倾向词每步迭代的得分:
其中HubScore(T)(ti)表示第T步倾向词ti的得分,AuthScore(T)(dj)表示第T步倾向性微博dj的得分;当连续两步迭代的倾向词得分和倾向性微博得分误差小于某一阀值迭代计算结束,得到最终的每个倾向词得分HubScore即为每个倾向词的倾向性权重;
所述步骤(3)中,根据给定查询q使用BM25检索模型计算每条微博的相关性得分,计算出的待检索微博d的相关性得分表示为Scorerel(d,q),所述倾向性得分Scoreopn(d,q)的计算公式为:
其中,ti表示倾向词,αi表示倾向词的倾向性权重,λ为平滑参数,co(ti,q)表示倾向词ti和查询q在微博d中共现的次数,c(q,d)表示查询q在微博d中出现的次数,len(d)为微博的长度;根据微博的相关性得分Scorerel(d,q)和倾向性得分Scoreopn(d,q)计算最终的排名得分RankScore(d,q):
RankScore(d,q)=Scorerel(d,q)*Scoreopn(d,q)
最终根据该排名得分对待检索微博进行排序,得到最终的微博列表。
2.根据权利要求1所述的一种基于图模型的中文微博客倾向性检索方法,其特征在于,在步骤(1)中,所述去噪声处理为去除微博中的以下内容:
a)网页链接;b)特殊字符;c)推广相关的字符;d)表情相关的符号;e)标点符号;
所述停用词处理为根据中文停用词表删除分词后微博中的中文停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410504180.7/1.html,转载请声明来源钻瓜专利网。