[发明专利]基于金融异构大数据的信息采集系统及其控制方法有效
申请号: | 201810201458.1 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108416034B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 孙善辉 | 申请(专利权)人: | 宿州学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 234000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 金融 异构大 数据 信息 采集 系统 及其 控制 方法 | ||
本发明公开了一种基于金融异构大数据的信息采集系统及其控制方法,包括互联网信息源、Linux后台服务端系统、Web客户端程序系统和客户终端,所述互联网信息源、Linux后台服务端系统、Web客户端程序系统、客户终端依次相连,所述Linux后台服务端系统包括异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块,所述异构信息收集及预处理模块包括爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器。本发明能够实时采取金融产品的异构文档并从中提取出用户感兴趣的数据,确保了所提供金融数据的实效性,解决了传统金融领域异构信息收集不便的问题。
技术领域
本发明涉及信息采集系统技术领域,尤其涉及一种基于金融异构大数据的信息采集系统。
背景技术
随着信息技术的发展,在互联网上进行金融的行为越来越多。金融领域每时每刻都有大量的信息通过互联网公布,由于网络本身所具有的信息梁庞大、信息来源不固定、文本化表述特征明显,且目前互联网上的金融信息在发布时仍是以半结构化的形式为主。而相比结构化的数据,这些异构信息虽然易于发布和收集,但噪声度高、信息冗余量大、不便于阅读和理解,因此有效的信息提取变得至关重要。
发明内容
本发明的目的是为了解决现有金融领域信息采集噪声度高、信息冗余量大、不便于阅读和理解的问题,而提出的一种基于金融异构大数据的信息采集系统及其控制方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于金融异构大数据的信息采集系统,包括互联网信息源、Linux后台服务端系统、Web客户端程序系统和客户终端,其特征在于,所述互联网信息源、Linux后台服务端系统、Web客户端程序系统、客户终端依次相连,所述Linux后台服务端系统包括异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块,所述异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块依次相连,所述异构信息收集及预处理模块包括爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器,所述爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器依次相连,所述抽取规则生成模块包括规则归类单元、规则合成单元,所述规则归类单元和规则合成单元相连,所述规则合成单元包括匹配器、比较器、泛化器,所述匹配器、判断器、泛化器依次相连,所述信息抽取评估模块包括第一数据库、第二数据库、第一数据比较器,所述第一数据库和第二数据库均与第一数据比较器相连。
优选地,所述爬虫URL解析器包括控制器模块、解析模块、资源库模块,所述解析模块包括网页抓取单元、网页信息特征提取单元、网页信息分类建模单元、数据储存单元、计算机分析单元和计算机显示单元,所述网页抓取单元、网页信息特征提取单元、网页信息分类建模单元依次相连,所述网页信息分类建模单元和数据储存单元均与计算机分析单元相连,所述计算机分析单元与计算机显示单元相连;所述计算机分析单元包括数据提取器、数据接收器和第二数据比较器。
优选地,所述泛化器采用基于启发式函数的规则泛化方法,且采用Laplacian误差估计作为启发函数。
优选地,所述第一数据库包括准确率、召回率、F-measure三个参数,所述第二数据库存储有三个预先设置的且分别与准确率、召回率、F-measure对应的基准值。
优选地,按以下步骤进行操作:
第一步:首先,系统在互联网信息源上使用爬虫URL解析器搜索最新发布的金融产品,当遇到无法处理的PDF文档时,爬虫URL解析器通过搜索引擎检索器检索Web页面进行替代,异构信息采集与预处理模块中设计了PDF文档和Web信息的解析器,负责对异构文档进行解析并从中提取出文本信息,转存为后续处理数据。
第二步:其次,在抽取规则生成模块中,系统从标注过的训练样本中生成规则集合,规则集合通过聚类和合成,将结果导入最终的规则库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿州学院,未经宿州学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810201458.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置