[发明专利]一种基于内容相似性的Web主题排序方法有效

专利信息
申请号: 201310719507.8 申请日: 2013-12-23
公开(公告)号: CN103646106A 公开(公告)日: 2014-03-19
发明(设计)人: 袁东风;段秋丹;朱丽娜 申请(专利权)人: 山东大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250061 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于内容相似性的Web主题排序方法,属于网络信息处理技术领域。通过网页分析检测筛选出包含相关Web主题的网页,并进行一次排序;对包含该主题的网页内容进行相似性分析,并按照各内容的相似性进行相关排序,完成二次排序。本发明方法可以为用户提供更加清晰明了的层次性的检索结果,同时,能满足用户对该主题某一确定方面内容的需求。由此可见,基于内容相似性的Web主题排序的方法可以为用户提供更优质高效的检索需求。
搜索关键词: 一种 基于 内容 相似性 web 主题 排序 方法
【主权项】:
一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供优质的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:1)确定所要筛选的Web主题对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;2)模糊关键字匹配检测即一次排序2‑1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;2‑2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj;2‑3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;2‑4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;3)各网页内容相似度检测即二次排序3‑1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,如1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;3‑2对步骤3‑1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用Cosine相似度来计算: cos ( x , y ) = x · y | | x | | · | | y | | = Σ x i y i Σ x i 2 Σ y i 2 其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF‑IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;3‑3步骤3‑2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;3‑4重复步骤3‑2、3‑3,直至所有区间的网页内容均完成相似度分析排序;3‑5保持各区间的排序结果,并将各区间按匹配度的大小从大到小进行排序;4)将排序结果展示给用户,供其查询需求。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310719507.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top