[发明专利]突发事件热点话题的识别与评估装置和方法有效
申请号: | 201210327979.4 | 申请日: | 2012-09-06 |
公开(公告)号: | CN102937960A | 公开(公告)日: | 2013-02-20 |
发明(设计)人: | 陈莉萍;杜军平;宋茂强 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种突发事件热点话题的识别与评估装置和方法,该装置设有文本获取、文本表示、话题聚类和话题评估共四个单元组成部件,本发明创新特点是:对新闻报道正文的裁剪只提取标题、导语及相关特征等信息,就将其作为热点话题识别的有效样本集;与现有的全文提取进行对比实验的结果表明,两者的结果相近似,但本发明操作大大简化。还使用改进的特征权值计算模型,与经典模型比较,前者的执行效率更好和文本表示能力适应性更强。对聚类出的话题利用模型评估热度值,所计算出的热点话题符合预期效果,更适应于突发事件新闻报道的特征。总之,本发明装置和方法在处理突发事件新闻报道文本过程中,其计算复杂度、结果准确性和实时性方面都具有良好性能。 | ||
搜索关键词: | 突发事件 热点话题 识别 评估 装置 方法 | ||
【主权项】:
一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块,以及分词词典和停用词表两个数据库;话题聚类单元,负责对来自前述单元的特征词进行聚类处理:将描述相同话题的文档进行聚合,组成多个被称为簇的子集,使得每个簇中的各个文档之间相似性强,而簇间各文档的相似性弱;再用每个簇中特征权值最高的2~5个词语描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;设有:文档相似性计算模块和文档聚类模块;话题评估单元,负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估,并按照评估值大小对热点话题进行降序排序,为迅速把握后续的重要事件和研究话题的演化规律提供基础;设有:网络特征计算、热度评估、话题排序三个模块和特征向量数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210327979.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种γ-环糊精的制备方法
- 下一篇:一种光纤激光涡街流量计