[发明专利]一种面向新闻网站的事件跟踪方法有效

专利信息
申请号: 201210394246.2 申请日: 2012-10-16
公开(公告)号: CN102929977A 公开(公告)日: 2013-02-13
发明(设计)人: 林怀忠;陈泽锋;陈劲 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 陈昱彤
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向新闻网站的事件跟踪方法。它利用事件种子报道集和事件的不相关报道集训练一组SVM二元分类器,作为事件跟踪模型;利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;根据分类结果对目标新闻网页进行事件相关性判断;如果目标新闻网页与事件相关则加入事件种子报道集,并重新训练事件跟踪模型;否则继续处理新的目标新闻网页。本发明克服了现有技术事件跟踪初期事件相关信息过少、数据倾斜和计算复杂度过高的缺陷,能够有效地提高事件跟踪的准确率和召回率。
搜索关键词: 一种 面向 新闻 网站 事件 跟踪 方法
【主权项】:
1.一种面向新闻网站的事件跟踪方法,其特征在于,包括如下步骤:(1) 从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上关键词;以所提取的所有关键词作为要素构造一个查询向量,将所述查询向量提交给搜索引擎而获得一个以上网页,对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,≥1;(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量;(3) 将每一组所述不相关报道分别与当前事件种子报道集进行组合构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器;(4)分别利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文;(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210394246.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top