[发明专利]一种情报收集处理和检索系统无效
| 申请号: | 200710165902.0 | 申请日: | 2007-10-31 |
| 公开(公告)号: | CN101158963A | 公开(公告)日: | 2008-04-09 |
| 发明(设计)人: | 游波;刘丽丽 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 龙洪;霍育栋 |
| 地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 情报 收集 处理 检索系统 | ||
技术领域
本发明涉及一种情报收集处理和检索系统,具体地涉及网络信息处理系统中一种利用网络数据挖掘和自然语言处理及搜索引擎进行情报收集、处理和检索的系统。
背景技术
情报信息分析,是商业活动中的重要环节。而情报信息收集和处理是情报信息得以利用的第一步,也是关键的一步。情报信息收集处理工作的好坏,直接关系到整个情报信息管理工作的质量。为了保证情报信息收集的质量,应做到准确,全面,和时效性。
目前情报信息收集有如下一些手段:社会调查,运用观察、询问等方法直接从社会中了解情况,收集资料和数据;收集新闻媒体情报,包括一般书报的相关记载,业界书报的新制品介绍、业界的动向、商品动向、市场状况等相关记事,有关消费者动态和倾向之杂志报告记事,政府及地方公共团体所发行的消费者调查报告,业界研讨会、讲习会等情报,各种研究机关的调查及建议案等;收集各种专业技术刊物,会议文献,论文,文章,文档等技术和商业资料;收集其他公司内部的市场资料,销售资料,技术资料,人员资料等。
目前的情报信息收集方式主要存在以下问题:1)投入人力物力耗费大。采用社会调查和收集其他公司内部的资料都需要付出额外的人力或者物力,因此通常都作为单次的补充手段或者临时手段;2)难以保障情报信息收集的全面性。通过人员收集新闻媒体情报或者专业刊物上的情报资料,难以保障情报信息收集的全面性。因为相关的媒体情报信息资料与互联网信息资料庞大,通过手工方式很难保障收集的全面性;3)难以保障情报信息收集的及时性。通过人工方式收集,通常效率比较低,周期长,因此难以保障情报信息收集的及时性;4)情报信息的汇总,摘要,整理,分类困难。由于人工方式收集到的资料形式各异,包括电子的,纸质的等形式很难进行汇总,摘要,整理,分类,给后续的分析处理带来困难。
专利200610038392.6中提出了仿人工细粒度网页信息采集方法,能够提高细分采集信息价值,所采集到的细分信息可以直接用于商务情报的分析、各类数据库系统的数据源。但该专利并没有形成完备的情报处理检索系统。
发明内容
本发明要解决的技术问题是提供一种情报收集处理和检索系统,可以比较全面地、及时地收集情报信息,自动进行情报的后续加工处理,并可以集中的检索和浏览,节省大量费用。
为了解决上述问题,本发明提供了一种情报收集处理和检索系统,包括:
策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报特征进行配置管理;
数据挖掘处理模块,根据互联网提供的资源,进行爬行搜索,并将抓取到网络数据保存下来,识别后提取出其中的有效信息,之后进行筛选过滤,将保留的情报信息内容写入情报数据库中保存;
检索模块,对所述情报数据库中情报信息的完整内容进行加工,生成摘要信息,并对情报信息进行归类处理,形成用于搜索的索引库,并提供检索功能;
情报数据库,用于存储所述数据挖掘处理模块传来的情报信息、以及所述检索模块处理后写回的情报信息,并提供给浏览检索界面进行检索;
浏览检索界面,接收使用者查询请求,通过所述情报数据库进行检索,分类查看、浏览摘要及全文内容;
进一步的,本发明所述的系统,其中,所述数据挖掘处理模块的抓取策略,包括:抓取的页面类型、文档类型、抓取站点列表、以及扫描间隔;所述模式设置,包括:页面数据的格式;所述情报特征,包括:所述保留的情报信息的文本文字特征;
进一步的,本发明所述的系统,其中,所述数据挖掘处理模块,还包括:
网络抓取子模块,根据所述抓取策略中互联网页面列表、站点列表或者网段列表,对站点进行爬行搜索,并根据策略中配置的页面类型和文档类型将抓取到的匹配的页面、文档、数据保存下来,并交给模式识别子模块进行处理,同时根据配置的时间策略,定时对抓取结果进行增量更新,或者进行完全的重新抓取;
模式识别子模块,根据所述策略管理模块配置的模式设置,对所述网络抓取子模块抓取下来的内容进行识别,按信息域提取出有效信息,完毕后通知特征识别子模块进行处理;
特征识别子模块,按所述策略管理模块配置的情报特征,对所述模式识别子模块传来的有效信息按信息域进行筛选过滤,过滤掉非情报信息、和非关注情报,保留关注的情报信息内容,将其写入所述情报数据库中保存;
进一步的,本发明所述的系统,其中,所述网络抓取子模块,对指定站点进行爬行搜索的过程,由系统定期自动进行或者手动触发;
进一步的,本发明所述的系统,其中,所述网络抓取子模块,还用于对地址段进行大范围的扫描收集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710165902.0/2.html,转载请声明来源钻瓜专利网。





