[发明专利]一种情报收集处理和检索系统无效
| 申请号: | 200710165902.0 | 申请日: | 2007-10-31 |
| 公开(公告)号: | CN101158963A | 公开(公告)日: | 2008-04-09 |
| 发明(设计)人: | 游波;刘丽丽 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 龙洪;霍育栋 |
| 地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 情报 收集 处理 检索系统 | ||
1.一种情报收集处理和检索系统,其特征在于,包括:
策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报特征进行配置管理;
数据挖掘处理模块,根据互联网提供的资源,进行爬行搜索,并将抓取到网络数据保存下来,识别后提取出其中的有效信息,之后进行筛选过滤,将保留的情报信息内容写入情报数据库中保存;
检索模块,对所述情报数据库中情报信息的完整内容进行加工,生成摘要信息,并对情报信息进行归类处理,形成用于搜索的索引库,并提供检索功能;
情报数据库,用于存储所述数据挖掘处理模块传来的情报信息、以及所述检索模块处理后写回的情报信息,并提供给浏览检索界面进行检索;
浏览检索界面,接收使用者查询请求,通过所述情报数据库进行检索,分类查看、浏览摘要及全文内容。
2.如权利要求1所述的系统,其特征在于,所述数据挖掘处理模块的抓取策略,包括:抓取的页面类型、文档类型、抓取站点列表、以及扫描间隔;
所述模式设置,包括:页面数据的格式;
所述情报特征,包括:所述保留的情报信息的文本文字特征。
3.如权利要求2所述的系统,其特征在于,所述数据挖掘处理模块,还包括:
网络抓取子模块,根据所述抓取策略中互联网页面列表、站点列表或者网段列表,对站点进行爬行搜索,并根据策略中配置的页面类型和文档类型将抓取到的匹配的页面、文档、数据保存下来,并交给模式识别子模块进行处理,同时根据配置的时间策略,定时对抓取结果进行增量更新,或者进行完全的重新抓取;
模式识别子模块,根据所述策略管理模块配置的模式设置,对所述网络抓取子模块抓取下来的内容进行识别,按信息域提取出有效信息,完毕后通知特征识别子模块进行处理;
特征识别子模块,按所述策略管理模块配置的情报特征,对所述模式识别子模块传来的有效信息按信息域进行筛选过滤,过滤掉非情报信息、和非关注情报,保留关注的情报信息内容,将其写入所述情报数据库中保存。
4.如权利要求3所述的系统,其特征在于,所述网络抓取子模块,对指定站点进行爬行搜索的过程,由系统定期自动进行或者手动触发。
5.如权利要求3所述的系统,其特征在于,所述网络抓取子模块,还用于对地址段进行大范围的扫描收集。
6.如权利要求1所述的系统,其特征在于,所述检索模块,还包括:
自动摘要子模块,读取所述情报数据库中的情报信息的完整内容,对内容字段中的文本信息进行加工,生成整个情报内容的摘要信息,并保存回所述情报数据库中;
自动分类子模块,读取所述情报数据库中的情报信息的完整内容,根据内容字段中的文本信息进行归类处理、生成分类类别,并将生成的类别信息保存回所述情报数据库中;
搜索引擎子模块,读取所述情报数据库中的情报信息的完整内容,并根据内容字段中的文本信息生成用于搜索的索引库,该索引库独立保存,提供检索功能。
7.如权利要求6所述的系统,其特征在于,所述自动摘要子模块,使用自然语言处理方式的摘要生成方法,根据所述文本信息自动生成摘要信息。
8.如权利要求6所述的系统,其特征在于,所述自动分类子模块,使用自然语言处理方式的文章分类方法,根据所述文本信息自动进行情报信息的归类。
9.如权利要求1所述的系统,其特征在于,所述浏览检索界面,包括:普通窗口界面、以及网页界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710165902.0/1.html,转载请声明来源钻瓜专利网。





