[发明专利]一种基于枚举的网络实体爬取方法有效
申请号: | 201410003459.7 | 申请日: | 2014-01-03 |
公开(公告)号: | CN103699687B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 肖仰华;张俊骏;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于网络爬虫技术领域,具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即;通过一定采样方式、采样规模来对目标网络实体进行采样,并对可转化样本进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架,在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术,在进行网络大规模实体爬取时具有更好的效果。 | ||
搜索关键词: | 一种 基于 枚举 网络 实体 方法 | ||
【主权项】:
一种基于枚举的网络实体爬取方法,其特征在于,具体步骤如下: (1)对目标网络实体进行采样和预处理通过网络实体对应的URL文本中的链接或者存储目标网络实体的网站提供的查询机制进行规模化采样;选取样本中URL长度固定,而且URL中任何一个字符的取值为有限多种的目标网络实体样本,将URL之间相同的字符去除,而将每一个不相同的字符看作是一个特征,从而将每一个样本分解成特征组成的向量;(2)对样本进行特征聚类和特征合并根据k均值算法进行聚类,再根据平均类内距选取合适的类数对k均值算法效果进行优化;最后去除目标类中的类内噪音,其中噪音就是在某些特征上与类内大多数样本取值不同的点;(3)生成可枚举表达式对上述已经聚类的样本进行特征合并操作,最终生成可枚举的且枚举代价最小的正则表达式;具体描述如下:首先对特征进行两两之间的联合分布分析,然后将第一轮合并之后的新的特征再进行合并,重复此步骤直到不能再合并为止;再依据合并后的新特征对原有的正则表达式进一步分割;假设在整个类 中,样本总共为m个,两个特征的联合分布的取值数为n,两个特征单独取值数之积为N;两个特征合并后取值数的期望值为E(n’);其中E(n’)用下式进行计算:当 n<N,且E(n’) <n+δ,将两特征进行合并,δ为设定的阈值,一般情况下δ<0.5;当E(n’)>= n+δ时,两个特征不进行合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410003459.7/,转载请声明来源钻瓜专利网。