[发明专利]一种基于语义扩充的微博话题检测和热度评估方法有效
申请号: | 201510243208.0 | 申请日: | 2015-05-13 |
公开(公告)号: | CN104834632B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 刘磊;许志刚;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于语义扩充的微博话题检测和热度评估方法,属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。本发明首先给出了微博噪声数据过滤方法,用于低信息量微博的过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效果,最后进行了微博话题热度评估,进而获取热点话题。 | ||
搜索关键词: | 一种 基于 语义 扩充 话题 检测 热度 评估 方法 | ||
【主权项】:
一种基于语义扩充的微博话题检测和热度评估方法,其特征在于:该方法包括如下步骤,步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博;步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;步骤1.2:计算信息量指数A:(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合;(2)计算当前微博的核心词的权重和,作为此微博的信息量指数A;(3)过滤掉信息量指数A低于信息量指数阈值χ的微博;计算重要性指数B:(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν);(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0;(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B;(4)过滤掉重要性指数B低于重要性指数阈值σ的微博;步骤2:微博语义扩充;步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//@”前的内容当做“//@”后内容的转发评论的方式,获取每一条原创微博的评论集合;步骤2.2:通过微博评论选择方法对微博评论进行筛选;一条原创微博表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:步骤2.2.1:输入微博T的内容d和评论集合C;步骤2.2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母及标点符号的评论;步骤2.2.3:对微博内容d和步骤2.2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;步骤2.2.4:对步骤2.2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;步骤2.2.5:输出微博T的最终评论文本p;步骤2.3:将微博评论中的语义信息补充进微博中;在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤2.3.1‑2.3.3结合起来,以形成对微博T的有效的语义扩充;微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P,微博语义扩充由以下三步构成:步骤2.3.1:采用向量空间模型表示数据集D和P中的文本;步骤2.3.2:特征选择,设选定的特征选择函数为f(x);从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;若需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend,即Fend=F″D∪F″P;步骤2.3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend;若f∈di,特征f在文本di中的权重为若特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为若特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数;步骤3:对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得到若干微博话题;步骤4:对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降序排列得到热点话题;设话题集为Topic={TP1,TP2,...,TPN},话题TPj(1≤j≤N)对应的微博集为Dj={dj1,dj2,...,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数;微博集Dj中微博dji(1≤i≤M)的热度Hdji表示为:Hdji=log(lnji+1)+pnji3+cnji+fnji,]]>其中,lnji代表微博dji的微博用户粉丝数,pnji代表微博dji的点赞数,cnji代表微博dji的评论数,fnji代表微博dji的转发数;话题TPj的热度HTj可表示为:其中,tj为话题TPj的时间跨度,即微博集Dj中最早微博的发布时间与话题检测时的时间的差值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510243208.0/,转载请声明来源钻瓜专利网。