[发明专利]一种网络信息垂直搜索与挖掘处理方法无效
申请号: | 201010121442.3 | 申请日: | 2010-03-10 |
公开(公告)号: | CN101807206A | 公开(公告)日: | 2010-08-18 |
发明(设计)人: | 金仲敏;张瑞黎;贾涛 | 申请(专利权)人: | 上海克而瑞信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 信息 垂直 搜索 挖掘 处理 方法 | ||
技术领域
本发明涉及一种网络资源获取方法,尤其是涉及一种网络信息垂直搜索与挖掘处理方法。
背景技术
普通的网页搜索比如google是一种泛型搜索,整个结构的最小单位为网页,并不会对网页当中的内容做数据结构化分析和语义分析。
前的部分房地产行业垂直技术虽然可以做到一定程度的网页内容分析和数据结构化处理,但仍然缺乏足够深入的信息挖掘,面对需要和地产行业知识紧密相关且需要一定逻辑推理和公式计算的信息提取仍然有很多待解决的问题。而本专利提供的方法旨在解决这一系列问题,诸如新房网络信息中通过复杂公式计算交易相关信息等。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种成本低、效率高、计算功能强大、灵活性好的网络信息垂直搜索与挖掘处理方法。
本发明的目的可以通过以下技术方案来实现:
一种网络信息垂直搜索与挖掘处理方法,其特征在于,该方法包括以下步骤:
1)获取网页信息;
2)对获取的网页信息进行结构化处理;
3)对经处理后的数据进行逻辑推理和计算。
所述的步骤1)获取网页信息步骤如下:
11)下载并保存任务起始页面信息;
12)分析页面信息、分配并保存相关任务;
13)启动任务处理单元,获取任务;
14)各单元执行各自任务,下载并保存相关页面;
15)分析页面信息、分配并保存其他相关任务;
16)循环执行13)-15)步骤,直到所有任务处理结束后任务处理单元逐个结束工作,获得Html文件并将其保存。
所述的步骤2)对获取的网页信息进行结构化处理步骤如下:
21)读取下载的Html文件信息;
22)将Html文件转为Dom对象,供分析;
23)将Dom对象转为XML数据结构,保存到数据库中;
24)批量分解XML数据到数据库表格中。
所述的步骤3)对经处理后的数据进行逻辑推理和计算步骤如下:
31)系统第一次运行将所有历史数据下载并结构化分析处理,所有状态相关数据保存到数据库中;
32)下载所有步骤2)处理后的数据;
33)设定任务驱动规则,判断步骤2)处理后的数据的关键指标和历史状态是否一致,若为否,将步骤2)处理后的数据与历史状态对比,得出变化过程。
与现有技术相比,本发明具有以下优点:
1)成本低、效率高、计算功能强大、灵活性好,并采用分布式多线程方式,具有良好的扩展性;
2)稍作调整后,能很快应用于多种行业的不同垂直搜索领域。
附图说明
图1为本发明的流程图;
图2为本发明的硬件结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种网络信息垂直搜索与挖掘处理方法,该方法包括以下步骤:
1)获取网页信息;
2)对获取的网页信息进行结构化处理;
3)对经处理后的数据进行逻辑推理和计算。
1、信息提取
本发明适用于绝大多数网站前端应用,并不会直接访问对方后台数据库系统。
主要技术规范和提取方式包括:
a)标准http协议方式访问;
b)可控制多线程下载网页数据;
c)根据预设定访问路径规则决定子页面是否下载,减少网络负载和目标服务器压力;
d)应用服务器分布式协同下载,增强工作效率。
主要工作流程为:
11)下载并保存任务起始页面信息;
12)分析页面信息、分配并保存相关任务;
13)启动任务处理单元,获取任务;
14)各单元执行各自任务,下载并保存相关页面;
15)分析页面信息、分配并保存其他相关任务;
16)循环执行13)-15)步骤,直到所有任务处理结束后任务处理单元逐个结束工作,获得Html文件并将其保存。
2、结构化处理
结构化处理是指把软件下载的页面信息根据房地产专业角度来分析解释,把页面信息转为专业数据表格的过程。转换后的数据表格待做进一步的挖掘和分析使用,一般都保存在数据库系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海克而瑞信息技术有限公司,未经上海克而瑞信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010121442.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种核电厂现场辅助施工系统及其实现方法
- 下一篇:多端口式连接器
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置