[发明专利]一种基于枚举的网络实体爬取方法有效
申请号: | 201410003459.7 | 申请日: | 2014-01-03 |
公开(公告)号: | CN103699687B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 肖仰华;张俊骏;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 枚举 网络 实体 方法 | ||
1.一种基于枚举的网络实体爬取方法,其特征在于具体步骤如下:
(1)对目标网络实体进行采样和预处理
通过网络实体对应的URL文本中的链接或者存储目标网络实体的网站提供的查询机制进行规模化采样;选取样本中URL长度固定,而且URL中任何一个字符的取值为有限多种的目标网络实体样本,将URL之间相同的字符去除,而将每一个不相同的字符看作是一个特征,从而将每一个样本分解成特征组成的向量;
(2)对样本进行特征聚类和特征合并
根据k均值算法进行聚类,再根据平均类内距选取合适的类数对k均值算法效果进行优化;最后去除目标类中的类内噪音,其中噪音就是在某些特征上与类内大多数样本取值不同的点;
(3)生成可枚举表达式
对上述已经聚类的样本进行特征合并操作,最终生成可枚举的且枚举代价最小的正则表达式;具体描述如下:
首先对特征进行两两之间的联合分布分析,然后将第一轮合并之后的新的特征再进行合并,重复此步骤直到不能再合并为止;再依据合并后的新特征对原有的正则表达式进一步分割;假设在整个类 中,样本总共为m个,两个特征的联合分布的取值数为n,两个特征单独取值数之积为N;两个特征合并后取值数的期望值为E(n’);其中E(n’)用下式进行计算:
当(1)n<N,且E(n’) <n+δ,将两特征进行合并,δ为设定的阈值,一般情况下δ<0.5;
当E(n’)>= n+δ时,两个特征不进行合并。
2.根据权利要求1所述的网络实体爬取方法,其特征在于:步骤(3)中,当E(n’)比n大1或2时, 进行特征合并操作后,还继续进行特征补全操作,即通过观察其联合分布,找到缺失取值并将之补全。
3.根据权利要求1所述的网络实体爬取方法,其特征在于:步骤(3)中,当特征合并之后,还进行最优化枚举顺序操作,根据距离分布的概率重新安排枚举的顺序和策略,即在枚举到一个实际存在的点之后,优先枚举出现概率最高处的点,如果找到了就再向后寻找下一个,如果没找到则寻找出现概率次高处的点。
4.根据权利要求1所述的网络实体爬取方法,其特征在于:其方法采用的系统包括采样模块、聚类模块和可枚举表达式生成模块;其通过采样模块中确定的采样方式、采样规模对目标网络实体进行规模化的采样并确定其URL是否可转化为可枚举的表达式,如果可转化则进行样本分解;再通过聚类模块将分解后的样本进行k均值聚类操作,并进行类内噪音去除;最后通过可枚举表达式生成模块,对已经聚类的样本进行特征合并、特征补全和最优化枚举顺序操作,最终生成可枚举的且枚举代价最小的正则表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410003459.7/1.html,转载请声明来源钻瓜专利网。