[发明专利]基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法在审
申请号: | 201611247621.5 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106649823A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 掌明;卢艳宏;杨瑞;樊纪山;王经卓;宋永献;孙巧榆;张金学;洪露 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市领专知识产权代理有限公司11590 | 代理人: | 林辉轮 |
地址: | 222005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,属于网页搜索引擎技术领域,本发明是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究,主要研究如何判断一个动态变化的网页是否与主题词相关,通过计算页面的主题词关联度,筛出与综合主题词关联度较大的URL进入待爬行队列,利用垂直搜索和聚焦爬虫技术获得网页的分类信息,设计了网页分类识别模型和算法,通过对动态变化的网页识别,获得不同分类的URL,为用户对提供网页的精准搜索,也能给出未知的URL所属网页分类。本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。 | ||
搜索关键词: | 基于 综合 主题词 垂直 搜索 聚焦 爬虫 网页 分类 识别 方法 | ||
【主权项】:
一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,其特征在于,创建爬虫后,通过页面内容分析算法得到网址搜索表Search,具体步骤如下:(1)利用聚焦爬虫技术获取网页的源文件;(2)判断该网页是否同时匹配相关内容页面及目录页面的结构特征,若不匹配,则转步骤(9);(3)利用正则表达式抽取网页的结构化信息;(4)调用综合主题词关联度计算方法,得到该页面的综合主题词关联度值,所述综合主题词关联度计算方法的具体步骤为:①构建M个主题词的综合权重向量q=(q1,q2,...,qM),其中qi表示第i个主题词在查询表达式中的权值;②获取待提取特征项页面;③页面中单词词干提取:提取文本的分词做过滤处理,过滤掉抽象的或对检索无关的单词,并去除无关的前缀和后缀;④计算提取出来的单词的词频度;⑤过滤掉词频度小于设定阀值T的特征项,选取n个特征项构成页面特征项库,设为p=(p1,p2,…,pn);⑥若特征库中的特征项位于<title>标签中,设r=5.0,若特征项在<meta>中,设r=3.0,若特征项在<a>中,设r=2.0,其他情况下设r=1.0。构成特征项权重向量集合r=(r1,r2,…,rn);⑦对M个主题词依次在页面特征项库中查找其对应的pi,若在特征项库中未找到,则记为0,构成的向量为p′=(p1′,p2′,…,pn′);⑧计算该页面中的综合主题词关联度R,其公式如下:R=Σi=1MPi*p′i*ri]]>(5)读取页面的综合主题词关联度R,并判断是否大于设定的阀值α,若不是,则放弃该页面,转步骤(1);(6)若该页面的综合主题词关联度R大于设定的阀值α,则把该页面的综合主题词关联度R值填入关联表Relevance中;(7)利用正则表达式从该页面的结构化信息中提取出新链接;(8)把该将新链填写到对应的Relevance表中,并按照Relevance值的降序方式排序;(9)判断Relevance表是否为空,若为空,则转步骤(13);(10)取出Relevance表中的第一个URL,判断此URL是否满足搜索策略,若不满足,则转向步骤(9);(11)将满足搜索策略的URL加入到网址搜索表Search中,同时删除Relevance表中的第一个URL;(12)转向步骤(1);(13)结束;得到网址搜索表Search后,读取网址搜索表Search,然后进行获取与主题词关联度大的网页的URL及分类信息的工作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611247621.5/,转载请声明来源钻瓜专利网。
- 上一篇:茶几(BY188)
- 下一篇:一种行为预测方法和装置