[发明专利]一种面向新闻网站的事件跟踪方法有效
申请号: | 201210394246.2 | 申请日: | 2012-10-16 |
公开(公告)号: | CN102929977A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 林怀忠;陈泽锋;陈劲 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向新闻网站的事件跟踪方法。它利用事件种子报道集和事件的不相关报道集训练一组SVM二元分类器,作为事件跟踪模型;利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;根据分类结果对目标新闻网页进行事件相关性判断;如果目标新闻网页与事件相关则加入事件种子报道集,并重新训练事件跟踪模型;否则继续处理新的目标新闻网页。本发明克服了现有技术事件跟踪初期事件相关信息过少、数据倾斜和计算复杂度过高的缺陷,能够有效地提高事件跟踪的准确率和召回率。 | ||
搜索关键词: | 一种 面向 新闻 网站 事件 跟踪 方法 | ||
【主权项】:
1.一种面向新闻网站的事件跟踪方法,其特征在于,包括如下步骤:(1) 从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上关键词;以所提取的所有关键词作为要素构造一个查询向量,将所述查询向量提交给搜索引擎而获得一个以上网页,对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前
个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,
≥1;(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量;(3) 将每一组所述不相关报道分别与当前事件种子报道集进行组合构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器;(4)分别利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文;(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210394246.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种照片处理方法和系统
- 下一篇:一种研究鸟类飞行动力学的方法和装置