[发明专利]一种面向建筑施工企业的大数据采集方法和系统有效
申请号: | 201710809082.8 | 申请日: | 2017-09-09 |
公开(公告)号: | CN107590236B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 张子柯;王朝;毛江群 | 申请(专利权)人: | 数立方(杭州)信息科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535;G06F16/955 |
代理公司: | 泉州市潭思专利代理事务所(普通合伙) 35221 | 代理人: | 谢世玉 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 建筑 施工 企业 数据 采集 方法 系统 | ||
1.一种面向建筑施工企业的大数据采集方法,其特征在于,包括:
步骤一、按照建筑施工企业所在的层级区域位置关系依次获取多个建筑施工企业各自的统一资源定位符URL地址以及对应的企业名称;
步骤二、将所述多个建筑施工企业各自的URL地址保存到URL文本文件中,将所述多个建筑施工企业各自的企业名称保存到名称文本文件中;
步骤三、从所述URL文本文件中读取到第一建筑施工企业的URL地址,以及从所述名称文本文件中读取到所述第一建筑施工企业的企业名称,其中,所述第一建筑施工企业为所述多个建筑施工企业中的任意一个建筑施工企业;
在所述步骤三执行完成后,分别执行步骤四和步骤九;
步骤四、根据所述第一建筑施工企业的URL地址分别获取到所述第一建筑施工企业的公司简介数据项的子URL地址、荣誉信息数据项的子URL地址、中标信息数据项的子URL地址、经营信息数据项的子URL地址;在所述步骤四执行完成后,分别执行如下步骤五、步骤六、步骤七、步骤八;
其中,所述步骤四,具体包括如下步骤:根据所述第一建筑施工企业的URL地址获取到所述第一建筑施工企业的首页超文本标记语言HTML网页;解析首页HTML网页,对所述首页HTML网页的所有超链接进行搜索,完成一级页面的遍历后再开始进行二级页面的搜索,按此循环方式直到底层页面搜索完成为止,搜索完成后输出所述第一建筑施工企业的公司简介数据项的子URL地址、荣誉信息数据项的子URL地址、中标信息数据项的子URL地址、经营信息数据项的子URL地址;其中,所述根据所述第一建筑施工企业的URL地址获取到所述第一建筑施工企业的首页超文本标记语言HTML网页,包括如下步骤:当所述第一建筑施工企业的URL地址具体为登录页面URL地址时,通过建筑施工企业查询客户端输入用户名和密码;当登录成功之后,判断所述第一建筑施工企业的首页HTML网页上是否出现验证码;若所述首页HTML网页上没有出现验证码,触发执行解析首页HTML网页的步骤;或者,若所述首页HTML网页上出现验证码,则识别所述首页HTML网页上的验证码图片,得到所述验证码图片上的图片信息;将所述图片信息提交给服务器进行验证;当验证码识别通过后,触发执行解析首页HTML网页的步骤;当验证码识别没有通过时,重新识别所述首页HTML网页上的验证码图片;
步骤五、使用第一爬虫程序根据所述公司简介数据项的子URL地址获取到所述公司简介数据项对应的内容网页,并解析所述公司简介数据项对应的内容网页得到所述第一建筑施工企业的公司简介信息,将所述公司简介信息存储到建筑施工企业信息数据库中;以及,
步骤六、使用第二爬虫程序根据所述荣誉信息数据项的子URL地址获取到所述荣誉信息数据项对应的内容网页,并解析所述荣誉信息数据项对应的内容网页得到所述第一建筑施工企业的荣誉信息,将所述荣誉信息存储到所述建筑施工企业信息数据库中;以及,
步骤七、使用第三爬虫程序根据所述中标信息数据项的子URL地址获取到所述中标信息数据项对应的内容网页,并解析所述中标信息数据项对应的内容网页得到所述第一建筑施工企业的中标信息,将所述中标信息存储到所述建筑施工企业信息数据库中;以及,
步骤八、使用第四爬虫程序根据所述经营信息数据项的子URL地址获取到所述经营信息数据项对应的内容网页,并解析所述经营信息数据项对应的内容网页得到所述第一建筑施工企业的经营信息,将所述经营信息存储到所述建筑施工企业信息数据库中;
步骤九、根据所述第一建筑施工企业的企业名称从建筑市场监管与诚信发布平台上获取到所述第一建筑施工企业的资质等级数据项的子URL地址和建造师信息数据项的子URL地址;
在所述步骤九执行完成后,分别执行如下步骤十、步骤十一;
步骤十、使用第五爬虫程序根据所述资质等级数据项的子URL地址获取到所述资质等级数据项对应的内容网页,并解析所述资质等级数据项对应的内容网页得到所述第一建筑施工企业的资质等级信息,将所述资质等级信息存储到所述建筑施工企业信息数据库中;其中,所述步骤十,具体包括如下步骤:判断所述第一建筑施工企业在所述建筑市场监管与诚信发布平台上是否存在所述第一建筑施工企业的企业名称对应的资质等级数据项;若所述建筑市场监管与诚信发布平台上不存在所述第一建筑施工企业的资质等级数据项,则继续从所述名称文本文件中读取到下一个建筑施工企业的企业名称;若所述建筑市场监管与诚信发布平台上存在所述第一建筑施工企业的资质等级数据项,使用所述第五爬虫程序获取到所述第一建筑施工企业的资质等级内容网页,解析所述资质等级内容网页,提取出所述第一建筑施工企业的公司名字、资质类别、资质证书号、资质名称、发证日期、证书有效期、发证机关;将所述第一建筑施工企业的公司名字、资质类别、资质证书号、资质名称、发证日期、证书有效期、发证机关依次顺序存储到所述建筑施工企业信息数据库中;以及,
步骤十一、使用第六爬虫程序根据所述建造师信息数据项的子URL地址获取到所述建造师信息数据项对应的内容网页,并解析所述建造师信息数据项对应的内容网页得到所述第一建筑施工企业的建造师信息,将所述建造师信息存储到所述建筑施工企业信息数据库中;其中,所述步骤十一,具体包括如下步骤:判断所述第一建筑施工企业在所述建筑市场监管与诚信发布平台上是否存在所述第一建筑施工企业的企业名称对应的建造师信息数据项;若所述建筑市场监管与诚信发布平台上不存在所述第一建筑施工企业的建造师信息数据项,则继续从所述名称文本文件中读取到下一个建筑施工企业的企业名称;若所述建筑市场监管与诚信发布平台上存在所述第一建筑施工企业的建造师信息数据项,使用所述第六爬虫程序获取到所述第一建筑施工企业的建造师内容网页,解析所述建造师内容网页,提取出所述第一建筑施工企业的建造师姓名、身份证号、注册类别、注册号、注册专业;将所述第一建筑施工企业的建造师姓名、身份证号、注册类别、注册号、注册专业依次顺序存储到所述建筑施工企业信息数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数立方(杭州)信息科技有限公司,未经数立方(杭州)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710809082.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于机械零件的方便调节的成型模具台
- 下一篇:自动铁水孕育机