[发明专利]一种基于语义扩充的微博话题检测和热度评估方法有效
申请号: | 201510243208.0 | 申请日: | 2015-05-13 |
公开(公告)号: | CN104834632B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 刘磊;许志刚;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 扩充 话题 检测 热度 评估 方法 | ||
技术领域
本发明属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。
背景技术
微博是以用户关系为基础的信息分享载体,用户可以通过WEB和各种APP,以140字以内的文字更新分享信息。用户之间通过“关注―被关注”的方式实现信息的传递,微博平台的转发功能促进和实现了微博在用户间的快速传播。
在微博快速发展的同时获得了广泛的应用,已成为一种具有强大影响力的新型媒体。微博具备4A特性(任何时间、任何地点、任何方式、任何人),随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研究微博及中文微博信息处理技术具有重要的理论和应用价值。
微博因为文本长度短,信息含量较少,会产生严重的数据稀疏问题,导致微博话题检测等微博文本信息处理的效果都不太理想。研究者们对解决微博数据稀疏问题和改善话题检测效果进行了一些尝试,但是此类问题还没得到彻底解决。本发明先对微博噪声数据进行了过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效果,最后进行了微博话题热度评估,进而获取热点话题。
发明内容
本发明的目的在于通过扩充微博语义改善微博话题检测的效果并获取热点话题。本发明综合考虑了微博噪声数据过滤、微博语义扩充和话题热度评估三个方面,提出了一种基于语义扩充的微博话题检测和热度评估方法。
一种基于语义扩充的微博话题检测和热度评估方法,其特征在于包括如下步骤:
步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博。
步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;
步骤1.2:
计算信息量指数A:
(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合。
(2)计算当前微博的核心词的权重和,作为此微博的信息量指数A。
(3)过滤掉信息量指数A低于信息量指数阈值χ的微博。
计算重要性指数B:
(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)。
(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0。
(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B。
(4)过滤掉重要性指数B低于重要性指数阈值σ的微博。
步骤2:微博语义扩充。
步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//@”前的内容当做“//@”后内容的转发评论的方式,获取每一条原创微博的评论集合;
步骤2.2:通过微博评论选择方法对微博评论进行筛选;
一条原创微博表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:
步骤2.2.1:输入微博T的内容d和评论集合C;
步骤2.2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;
步骤2.2.3:对微博内容d和步骤2.2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;
步骤2.2.4:对步骤2.2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;
步骤2.2.5:输出微博T的最终评论文本p。
步骤2.3:将微博评论中的语义信息补充进微博中;
在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤2.3.1-2.3.3结合起来,以形成对微博T的有效的语义扩充;
微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P,微博语义扩充由以下三步构成:
步骤2.3.1:采用向量空间模型表示数据集D和P中的文本;
步骤2.3.2:特征选择,设选定的特征选择函数为f(x);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510243208.0/2.html,转载请声明来源钻瓜专利网。