[发明专利]只提供简单查询接口的深层网页数据库的分类方法无效
申请号: | 201010147339.6 | 申请日: | 2010-04-03 |
公开(公告)号: | CN101923560A | 公开(公告)日: | 2010-12-22 |
发明(设计)人: | 崔志明;鲜学丰;赵朋朋 | 申请(专利权)人: | 崔志明;鲜学丰;赵朋朋 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 陶海锋 |
地址: | 215001 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 简单 查询 接口 深层 网页 数据库 分类 方法 | ||
1.一种只提供简单查询接口的深层网页数据库的分类方法,其特征在于,所述方法包括:
(1)设置深层网页数据库的结果模式和结果页面数据区域内容作为两种分类特征,根据两种分类特征分别建立基于结果模式的分类器和基于结果页面数据区域内容的分类器;
(2)基于结果模式的分类:基于朴素贝叶斯分类方法,利用从简单查询接口提交查询返回的结果页面的结果模式对深层网页数据库分类,获得该简单查询接口基于结果模式属于领域D的概率ω;
(3)基于结果页面数据区域内容的分类:基于传统的特征提取方法提取结果页面数据区域的特征词,再利用这些特征词以及文本分类方法进行分类,获得该简单查询接口基于结果页面数据区域内容属于领域D的概率θ;
(4)集成两种分类方法的结果,确定待分类深层网页数据库的类别,
如果(w1ω+w2θ)≥σ,则该深层网页数据库属于领域D;
其中:(w1+w2)=1,w1,w2为两种分类器的权重;ω和θ分别为结果模式与数据区域的属于该领域D的概率;σ为分类阈值。
2.根据权利要求1所述的只提供简单查询接口的深层网页数据库的分类方法,其特征在于:所述基于结果模式的分类步骤包括:
(1)获取领域查询样本;
(2)基于领域高级查询接口构建朴素贝叶斯分类器;
2-1)输入学习集;
2-2)对学习集进行预处理;
2-3)特征抽取:得到原始高级查询接口的特征标签向量,某高级查询接口f的特征标签向量可表示为:
f={l1,l2,....,ln}
其中:n为原始高级查询接口包括的标签总数;
li为第i个标签的名称;
2-4)通过高级查询接口的特征标签向量,训练和测试得到朴素贝叶斯分类器;
(3)向待分类深层网页数据库的查询接口提交领域查询样本,获取返回结果页面集:
p={p1,p2,....,pm}
其中:m为返回结果页面总数;
pi为第i个结果页面;
(4)从查询结果页面中抽取结果模式,从P中抽取的所有结果模式的集合为;
RS={(rs1,tf1),(rs2,tf2),....,(rst,tft)}
其中:t为获得的不同结果模式总数;
rsi为第i个结果模式,rsi表示为{l1,l2,....,ln},li为结果模式rsi的第i个属性;
tfi为第i个结果模式在P中出现的频率;
(5)基于结果页面的结果模式为特征分类深层网页数据库;
5-1)以结果页面的结果模式为特征,利用建立的朴素贝叶斯分类器对结果模式进行分类,得到该结果模式的分类结果
5-2)根据对RS中所有结果模式的分类结果,确定该深层网页数据库的属于该领域的概率,概率ω为:
其中:K为属于该领域所有结果模式之和,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔志明;鲜学丰;赵朋朋,未经崔志明;鲜学丰;赵朋朋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010147339.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于情境流的文件管理方法
- 下一篇:一种基于CLB总线的存储器接口方法