[发明专利]一种基于事件分析的Web新闻检索方法有效
申请号: | 201210519606.7 | 申请日: | 2012-11-29 |
公开(公告)号: | CN102982163A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 仲兆满;李存华;管燕 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于事件分析的Web新闻检索方法,其步骤如下:设置事件项Qe和约束项Qc两类输入框,得到查询项Q={Qe,Qc};选取Web新闻di的标题(T)、首段(FP)和末段(LP)三个部分表示di,di={T,FP,LP};计算di={T,FP,LP}中各个部分特征项的权重;设置查询项Q中特征项的权重为1;计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果。该方法区分了查询内容中不同项的作用,结合事件的动作要素、web新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与Web新闻相关度的计算方法,能显著地提高事件类Web新闻检索的准确率。 | ||
搜索关键词: | 一种 基于 事件 分析 web 新闻 检索 方法 | ||
【主权项】:
一种基于事件分析的Web新闻检索方法,其特征在于,具体步骤如下:A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:B1.提取Web新闻HTML源码中的和 两标签的中间部分作为di的标题T;B2.提取Web新闻正文部分的第一段作为di的首段FP;B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1},t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他类推,得到结果为: TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为: [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) 其中,α>1,α表示权重系数;C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权重,得到结果为: [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) × β 1 1 其中,β>1,β表示权重系数;D.设置查询项Q中特征项的权重为1;E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果,其具体步骤如下:E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为dis(t,a1)=|pos(t,FP)‑pos(a1,FP)|,t,l,o与a1的距离之和为 Σ x ∈ { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | , a1与a2的距离为:dis(a1,a2)=|pos(a1,FP)‑pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之为: Dis ( FP ) = Σ x ∈ { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | + | pos ( a 1 , FP ) - pos ( a 2 , FP ) | E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取最小值;E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:Dis(di)=Dis(T)+Dis(FP)+Dis(LP)E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与文档di的相关度为: R ( Q , d i ) = R ′ ( Q , d i ) × 1 log 2 Dis ( d i ) E6.按照相似度R(Q,di)的大小降序排列输出检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210519606.7/,转载请声明来源钻瓜专利网。
- 上一篇:活海鲜的运输箱
- 下一篇:一种雷电预警的方法和设备