[发明专利]一种面向新闻网站的事件跟踪方法有效
申请号: | 201210394246.2 | 申请日: | 2012-10-16 |
公开(公告)号: | CN102929977A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 林怀忠;陈泽锋;陈劲 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 新闻 网站 事件 跟踪 方法 | ||
1.一种面向新闻网站的事件跟踪方法,其特征在于,包括如下步骤:
(1) 从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上关键词;以所提取的所有关键词作为要素构造一个查询向量,将所述查询向量提交给搜索引擎而获得一个以上网页,对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前 个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,≥1;
(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量;
(3) 将每一组所述不相关报道分别与当前事件种子报道集进行组合构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器;
(4)分别利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文;
(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。
2.根据权利要求1所述的事件跟踪方法,其特征在于:在所述步骤(1)中,所述关键词为6-8个。
3.根据权利要求1或2所述的事件跟踪方法,其特征在于:在所述步骤(1)中,n=8。
4.根据权利要求1所述的事件跟踪方法,其特征在于:在所述步骤(2)中,|m-q|=0。
5.根据权利要求1或4所述的事件跟踪方法,其特征在于:在所述步骤(2)中,从事件的不相关报道集中随机选取的不相关报道为4-6组。
6.根据权利要求1所述的事件跟踪方法,其特征在于:在步骤(4)中,所述目标新闻网页的主信息或者由标题和正文组成,或者由标题、正文和发布时间组成,或者由标题、正文和来源组成,或者由标题、正文、发布时间和来源组成。
7.根据权利要求1所述的事件跟踪方法,其特征在于:步骤(1)所述权重为加权特征词权重。
8.根据权利要求7所述的事件跟踪方法,其特征在于:所述加权特征词权重的计算公式如式(1)所示:
(1)
其中,表示事件种子报道集中的第i个网页, 表示中某一特征词的权重;为用于调整特征词在网页中的不同位置的权重因子;表示特征词在中出现的次数;表示在事件种子报道集中出现特征词的所有网页的总数;表示的倒数;为事件种子报道集中所包含的网页总数。
9.根据权利要求8所述的事件跟踪方法,其特征在于:当特征词出现在标题时,取值为4.0;当特征词出现在正文时,取值为1.0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210394246.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种照片处理方法和系统
- 下一篇:一种研究鸟类飞行动力学的方法和装置