[发明专利]一种基于事件分析的Web新闻检索方法有效

专利信息
申请号: 201210519606.7 申请日: 2012-11-29
公开(公告)号: CN102982163A 公开(公告)日: 2013-03-20
发明(设计)人: 仲兆满;李存华;管燕 申请(专利权)人: 淮海工学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京众联专利代理有限公司 32206 代理人: 刘喜莲
地址: 222000 江苏省连云港市新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种基于事件分析的Web新闻检索方法,其步骤如下:设置事件项Qe和约束项Qc两类输入框,得到查询项Q={Qe,Qc};选取Web新闻di的标题(T)、首段(FP)和末段(LP)三个部分表示di,di={T,FP,LP};计算di={T,FP,LP}中各个部分特征项的权重;设置查询项Q中特征项的权重为1;计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果。该方法区分了查询内容中不同项的作用,结合事件的动作要素、web新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与Web新闻相关度的计算方法,能显著地提高事件类Web新闻检索的准确率。
搜索关键词: 一种 基于 事件 分析 web 新闻 检索 方法
【主权项】:
一种基于事件分析的Web新闻检索方法,其特征在于,具体步骤如下:A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:B1.提取Web新闻HTML源码中的两标签的中间部分作为di的标题T;B2.提取Web新闻正文部分的第一段作为di的首段FP;B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1},t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他类推,得到结果为: TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为: [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) 其中,α>1,α表示权重系数;C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权重,得到结果为: [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) × β 1 1 其中,β>1,β表示权重系数;D.设置查询项Q中特征项的权重为1;E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果,其具体步骤如下:E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为dis(t,a1)=|pos(t,FP)‑pos(a1,FP)|,t,l,o与a1的距离之和为 Σ x { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | , a1与a2的距离为:dis(a1,a2)=|pos(a1,FP)‑pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之为: Dis ( FP ) = Σ x { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | + | pos ( a 1 , FP ) - pos ( a 2 , FP ) | E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取最小值;E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:Dis(di)=Dis(T)+Dis(FP)+Dis(LP)E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与文档di的相关度为: R ( Q , d i ) = R ( Q , d i ) × 1 log 2 Dis ( d i ) E6.按照相似度R(Q,di)的大小降序排列输出检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210519606.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top