[发明专利]一种基于事件分析的Web新闻检索方法有效

申请号：	201210519606.7	申请日：	2012-11-29
公开（公告）号：	CN102982163A	公开（公告）日：	2013-03-20
发明（设计）人：	仲兆满;李存华;管燕	申请（专利权）人：	淮海工学院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京众联专利代理有限公司 32206	代理人：	刘喜莲
地址：	222000 江苏省连云港市新***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种基于事件分析的Web新闻检索方法，其步骤如下：设置事件项Qe和约束项Qc两类输入框，得到查询项Q＝{Qe，Qc}；选取Web新闻di的标题(T)、首段(FP)和末段(LP)三个部分表示di，di＝{T，FP，LP}；计算di＝{T，FP，LP}中各个部分特征项的权重；设置查询项Q中特征项的权重为1；计算查询项Q和新闻di的相关度为R(Q，di)，依据相关度R(Q，di)的大小降序排列输出检索结果。该方法区分了查询内容中不同项的作用，结合事件的动作要素、web新闻标题的重要性及事件项与约束项之间的距离，提出了事件查询项与Web新闻相关度的计算方法，能显著地提高事件类Web新闻检索的准确率。
搜索关键词：	一种基于事件分析 web 新闻检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于事件分析的Web新闻检索方法，其特征在于，具体步骤如下：A.在查询框中输入事件项Qe和约束项Qc两部分，得到查询项Q＝{Qe，Qc}；B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di，di＝{T，FP，LP}，其具体步骤如下：B1.提取Web新闻HTML源码中的和两标签的中间部分作为di的标题T；B2.提取Web新闻正文部分的第一段作为di的首段FP；B3.提取Web新闻正文部分的最后一段作为di的末段LP，得到Web新闻的三个部分di＝{T，FP，LP}；C.计算di＝{T，FP，LP}中各个部分特征项的权重，其具体步骤如下：C1.假设事件项Qe＝{a2}，a2表示事件的动作要素，约束项Qc＝{t，l，o，a1}，t，l，o，a1分别表示事件的时间、地点、对象及动作要素，它们在新闻di的T，FP，LP各个部分出现的次数记为一个矩阵，TF(a1，T)表示a1在T中出现的次数，其他类推，得到结果为： TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) C2.在事件的四要素中，动作要素是必不可少的，其他几个要素因不同的事件而有不同的差异，给事件动作要素赋以更高的权重，得到结果为： [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) 其中，α＞1，α表示权重系数；C3.在新闻di的T，FP，LP三个项中，标题T中的特征项最为重要，FP，LP两项中的特征项的重要性认为相同；给标题T中出现的特征词赋以更高的权重，得到结果为： [ α , α , 1,1,1 ] × TF ( a 1 , T ) TF ( a 1 , FP ) TF ( a 1 , LP ) TF ( a 2 , T ) TF ( a 2 , FP ) TF ( a 2 , LP ) TF ( t , T ) TF ( t , FP ) TF ( t , LP ) TF ( o , T ) TF ( o , FP ) TF ( o , LP ) TF ( l , T ) TF ( l , FP ) TF ( l , LP ) × β 1 1 其中，β＞1，β表示权重系数；D.设置查询项Q中特征项的权重为1；E.计算查询项Q和新闻di的相关度为R(Q，di)，依据相关度R(Q，di)的大小降序排列输出检索结果，其具体步骤如下：E1.计算事件查询项间的距离，以Web新闻di的FP项为例，将FP分词后，Qc＝{t，l，o，a1}和Qe＝{a2}在FP中出现的位置依次记为pos(t，FP)、pos(l，FP)、pos(o，FP)、pos(a1，FP)和pos(a2，FP)；t与a1之间的距离记为dis(t，a1)＝|pos(t，FP)‑pos(a1，FP)|，t，l，o与a1的距离之和为 Σ x ∈ { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | , a1与a2的距离为：dis(a1，a2)＝|pos(a1，FP)‑pos(a2，FP)|，那么FP中，t，l，o，a1与a2的距离之为： Dis ( FP ) = Σ x ∈ { t , l , o } | pos ( x , FP ) - pos ( a 1 , FP ) | + | pos ( a 1 , FP ) - pos ( a 2 , FP ) | E2.如果同一个事件动作要素a在文本中多次出现，其他要素与其距离取最小值；E3.Web新闻di的T，FP，LP三个部分中，事件查询项的距离之和为：Dis(di)＝Dis(T)+Dis(FP)+Dis(LP)E4.由步骤C3可知，初始的查询项Q与文档di的相关度计算方法如下：R′(Q，di)＝TF(a1，T)×α×β+TF(a2，T)×α×β+TF(t，T)+TF(o，T)+TF(l，T)+TF(a1，FP)×α+TF(a2，FP)×α+TF(t，FP)+TF(o，FP)+TF(l，FP)+TF(a1，LP)×α+TF(a2，LP)×α+TF(t，LP)+TF(o，LP)+TF(l，LP)E5.考虑到相关度与事件查询项之间的距离成反比，得到最终的查询项Q与文档di的相关度为： R ( Q , d i ) = R ′ ( Q , d i ) × 1 log 2 Dis ( d i ) E6.按照相似度R(Q，di)的大小降序排列输出检索结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淮海工学院，未经淮海工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210519606.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于事件分析的Web新闻检索方法有效

专利文献下载