[发明专利]一种主页链接推荐方法在审
申请号: | 201710565551.6 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107357891A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 陈刚;何积丰;张新阳 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科盛知识产权代理有限公司31225 | 代理人: | 宣慧兰 |
地址: | 201306 上海市浦东新区南*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主页 链接 推荐 方法 | ||
技术领域
本发明涉及一种网络搜索方法,尤其是涉及一种主页链接推荐方法。
背景技术
在现代社会中,网络搜索已经成为人们不可缺少的信息来源工具。人们使用搜索引擎时,首先输入一个或一组关键词,搜索引擎给出搜索结果列表,人们再根据自己的需求盲从检索结果列表中找出自己需要的链接。通常,这些搜索引擎都有各自的技术支持用户根据关键词检索,且各家搜索引擎的技术和排序方法也有不同,这样,用户使用不同的搜索引擎,得到的结果会有一些差别。但这些搜索引擎的不足之处在于:它们并不了解用户真正想检索或者感兴趣的领域或者内容是什么,用户脑中所想的关键词,搜索引擎的理解可能大相径庭。当然,根据检索关键词搜索得到的结果列表里应该已经包含了用户关心的结果链接,只是由于各家引擎检索算法不同,其结果排序对用户来讲并非最优,也可能用户打算寻找的关键词对应的链接在搜索结果列表里的位置很靠后,用户无法立刻找到。为此,各家搜索引擎开发自己的算法,从多方面收集信息,“猜测”用户输入的关键词的真正内涵,并给出最可能满足用户要求的搜索结果。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种主页链接推荐方法。
本发明的目的可以通过以下技术方案来实现:
一种主页链接推荐方法,该方法包括如下步骤:
(1)根据输入的关键词获取与关键词相关的搜索结果;
(2)过滤搜索结果提取所有与关键词相关的主页链接列表;
(3)获取步骤(2)中主页链接链表中所有主页对应的HTML源代码;
(4)对于每个主页从相应的HTML源代码中提取多组特征信息;
(5)对于每个主页根据特征信息求取该主页与关键词的相似度;
(6)根据相似度对所有主页进行排序并将相似度最高的主页链接推荐给用户。
步骤(2)具体为:从搜索结果中提取含有顶级域名以及带有国家域名的链接作为过滤结果并形成主页链接列表。
步骤(3)中多组特征信息包括:标题标签的内容、公安网络备案内容、元数据标签中关键词子标签的内容以及元数据标签中描述子标签的内容。
步骤(5)具体为,确定第i组特征信息的权重值wi,i=1,2,……n,n表示特征信息的总组数,然后采用下述步骤确定每个主页与关键词的相似度:
(a)确定第i组特征信息与关键词的相关度Xi,i=1,2,……n;
(c)待求取相似度的主页与关键词的相似度为F:
在确定每个主页与关键词的相似度之前还需判断关键词是否能进行词组拆分,若能,将关键词拆分为多个关键分词并作为比对关键词,否则将关键词直接作为比对关键词,进而步骤(b)为:将第i组特征信息拆分成多个特征分词,获取比对关键词在第i组特征信息的特征分词中出现的频数作为所述的相关度Xi。
与现有技术相比,本发明具有如下优点:
(1)本发明提供了针对主页链接的推荐方法,针对性较强,通过从HTML源代码中提取多组特征信息进而获取主页与关键词的相似度,推荐结果更加符合用户需求;
(2)本发明获取主页与关键词的相似度时通过简单的比对获取频数来确定每组特征信息的相关度,同时考虑各组特征信息的重要程度确定相应权重,最后通过加权求和法获取相应的相似度,该方法简单方便,但同时始终以用户输入的关键词为搜索目标,使得搜索结果更加贴近用户所需,极大程度满足用户要求。
附图说明
图1为发明主页链接推荐方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例1
如图1所示,一种主页链接推荐方法,该方法包括如下步骤:
(1)根据输入的关键词获取与关键词相关的搜索结果;
(2)过滤搜索结果提取所有与关键词相关的主页链接列表;
(3)获取步骤(2)中主页链接链表中所有主页对应的HTML源代码;
(4)对于每个主页从相应的HTML源代码中提取多组特征信息;
(5)对于每个主页根据特征信息求取该主页与关键词的相似度;
(6)根据相似度对所有主页进行排序并将相似度最高的主页链接推荐给用户,或者可以将所有主页连接按照相似度排序由高到低全部推荐给用户共用户自行选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710565551.6/2.html,转载请声明来源钻瓜专利网。