[发明专利]一种面向新闻网站的事件跟踪方法有效
申请号: | 201210394246.2 | 申请日: | 2012-10-16 |
公开(公告)号: | CN102929977A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 林怀忠;陈泽锋;陈劲 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 新闻 网站 事件 跟踪 方法 | ||
技术领域
本发明属于计算机数据挖掘技术领域,涉及一种基于分类算法的事件跟踪方法。
背景技术
在当今网络信息爆炸的情况下,由于信息更新迅速,且杂乱无章,使得从网络中及时寻找感兴趣、有价值的热点信息变得越来越困难。为此,以事件为研究对象的事件跟踪技术引起了人们的兴趣。通过事件跟踪,可以将事件相关的各方面信息自动组织起来,从而为人们提供一种方便快捷的渠道去全面了解热门事件。
事件跟踪方法目前的主流方法分为以下几种:
(1)基于KNN分类算法的事件跟踪模型,其首先根据内容的相关性从事件样本集中选择当前待检测报道最相似的k个先验报道作为最近邻,然后根据最近邻所属事件类别综合判定当前报道论述的事件。该方法简单易用,考虑因素少;但数据倾斜对其影响严重,且当数据量上规模后性能下降严重。
(2)基于决策树算法的事件跟踪模型,该模型从事件样本集中提取出决策树的分裂属性,创建相应的决策树分类模型,利用该决策树对待检测的报道所论述的事件进行判断。该方法对不同跟踪任务和不同数据源需选择不同的属性,作为决策树的分裂属性,选择难度大,模型复杂不好理解。
(3)基于Rocchio算法的跟踪模型,其利用事件样本集训练Rocchio分类器,然后利用该分类器判断待测报道是否与事件相关。其优点在于模型可以利用后续报道不断改进和更新事件模型,使模型更符合事件发展的特性;而其存在的明显缺陷是Rocchio算法对阈值的依赖程度很高:过高的阀值导致漏检率加大,过低的阀值则会引入大量噪声。
关于事件跟踪任务,先前的很多研究工作主要集中在如何建立更好的分类方法、事件与报道的表示模型及其相似度计算方法,以此提高跟踪系统的整体效果,而对于话题跟踪初期先验信息稀少和数据倾斜问题的研究很少。但由于事件跟踪初期先验知识稀少,再加上数据倾斜造成的影响,当前的事件跟踪方法获得的准确率和查全率都不高。
发明内容
本发明的目的是克服目前事件跟踪初期先验知识稀少和数据倾斜问题,提供一种快速有效的面向新闻网站的事件跟踪方法。
为实现上述目的,本发明面向新闻网站的事件跟踪方法包括如下步骤:
(1)从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上的关键词;以所提取的所有关键词作为要素构造一个查询向量;,将所述查询向量提交给搜索引 擎而获得一个以上网页,并对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前n个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,n≥1;
(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量;
(3)将每一组所述不相关报道分别与当前事件种子报道集进行组合组构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM(Vector Space Model)向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器。
(4)分别利用各SVM二元分类器(Support Vector Machine)对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文;
(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。
进一步地,本发明在所述步骤(1)中,所述关键词为6-8个。
进一步地,本发明在所述步骤(1)中,n=8。
进一步地,本发明在所述步骤(2)中,|m-q|=0。
进一步地,本发明在所述步骤(2)中,从事件的不相关报道集中随机提取选取的不相关报道为4-6组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210394246.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种照片处理方法和系统
- 下一篇:一种研究鸟类飞行动力学的方法和装置