[发明专利]基于垂直搜索的网络数据挖掘方法无效
申请号: | 200710132946.3 | 申请日: | 2007-10-09 |
公开(公告)号: | CN101141456A | 公开(公告)日: | 2008-03-12 |
发明(设计)人: | 曹杰;章舜仲;刘军 | 申请(专利权)人: | 南京财经大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 南京苏高专利事务所 | 代理人: | 陈扬 |
地址: | 210046江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 垂直 搜索 网络 数据 挖掘 方法 | ||
技术领域
本发明涉及一种网络数据的收集方法,具体地说是一种基于垂直搜索的网络数据挖掘方法。
背景技术
随着网络通讯技术的迅猛发展,万维网已经成为一个巨大的蕴涵潜在价值知识的分布式信息空间,网络数据中蕴涵着许多有用的,潜在的,但不容易被发现的知识和模式,人们迫切需要发现并掌握能够获得这些知识和模式的方法和工具。搜索引擎在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,而网络数据挖掘则是利用数据挖掘技术从网络数据中挖掘有用的模式和隐含的信息。因此搜索引擎为网络数据挖掘提供了数据准备,而网络挖掘是搜索引擎的高级应用。
然而由于网络上数据多以网页形式存在,大多数网页是一种非结构化的文本数据,而数据挖掘一般要求在结构化数据上进行,因此网络数据挖掘的关键问题在于从网络上获取结构化数据。
目前的搜索引擎采用通用搜索即水平搜索,通用搜索中提供的信息服务虽然覆盖面很广,但很难直接搜索到用户渴望的信息,主要存在以下问题:
(1)信息无序化导致有效信息少。由于网络数据多数存在于非结构化网页文本中,导致网络数据难以进行有效组织,存在大量的重复信息和垃圾信息,形成强大的噪音,造成用户查询信息犹如大海捞针。
(2)信息搜索缺乏专业划分,产业界线和用户范围与层次的区分,不能满足用户可定制化,专业化的查询。
发明内容
为了克服现有技术存在的问题,本发明的目的是提供一种基于垂直搜索的网络数据挖掘方法,采用该方法可以直接搜索到用户渴望的信息。
本发明的目的是通过以下技术方案来实现的:
一种基于垂直搜索的网络数据挖掘方法,其特征在于它包括以下步骤:
(1)基于垂直搜索的数据取样,即从网络搜集数据。垂直搜索是专为查询某一行业或主题的信息而产生的专业搜索工具,主要是对Internet网上网页的主题判别和网络蜘蛛(Web spider)的抓取程序。垂直搜索引擎分类更加细致、数据更加全面深入、内容更加及时,是对网页库中的某类专门的信息进行整合,定向抽取需要的数据后进行处理,再以某种形式返回给用户,而更重要的是由于垂直搜索以结构化数据作为搜索单位,不同于普通搜索引擎的网页块,因此通过垂直搜索采集的数据是结构化的,不仅可以为用户提供更具针对性的信息检索服务,还可以在此基础进行进一步的数据挖掘工作。
(2)信息预处理,对网络数据进行预处理工作,对于网页文本,需要提取关键词,建立索引文件。将网页中非结构化数据转换成结构化数据,并进行知识简化、数据整理和抽取正确可靠的数据,变成统一的数据格式,如处理不完整或噪声数据、转换数据格式、清理不一致数据等工作。
(3)数据存储,将通过数据清理后的结构化数据保存,一般存储到数据库中,或者进一步生成数据仓库,建立知识库、模型库和数据管理系统,数据存储由于仅需采集与维护和某一主题相关的网页,并对该领域进行更深入的采集和挖掘,确保数据挖掘中数据来源的广泛性和完整性,更好地支持企业或组织的决策分析处理的的数据集合。
(4)数据建模,通过对数据库中的数据进行分析,发现规则从而构建模型。通常是从预处理的结构化数据中发现有用的特征信息的过程,及挖掘目标的特征向量并计算出相应的权值,将采集的特征向量与目标样本的特征向量进行匹配,由此获得有关采集信息的关联度。
(5)预测、评价及修正,对未知数据进行预测,并和实际结果比较作出评价从而对原有模型参数进行修正,挖掘相关的权威信息提供给用户
本发明中,数据挖掘有两个重要特征:建模和预测,建模指通过分析数据库中的数据发现规则,构建预测模型,预测是指运用所构建的模型来预测未知的事物,为企业和部门提供决策支持。
本发明采用垂直搜索的网络数据挖掘方法来获得相关信息。垂直搜索引擎分类更加细致、数据更加全面深入、内容更加及时,是对网页库中的某类专门的信息进行整合,定向抽取需要的数据后进行处理,再以某种形式返回给用户。由于垂直搜索以结构化数据作为搜索单位,不同于普通搜索引擎的网页块,因此通过垂直搜索采集的数据是结构化的,可以为用户提供更具针对性的信息检索服务,而且还可以在此基础进行进一步的数据挖掘。与现有技术相比,本发明可以有效得到相关专业信息,重复信息和垃圾信息少,能满足用户专业化的查询。
附图说明
附图是采用垂直搜索的网络数据挖掘结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京财经大学,未经南京财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710132946.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:行动通讯装置及会议模式收音方法
- 下一篇:铁路无碴轨道桥梁梁端伸挠装置