[发明专利]基于金融异构大数据的信息采集系统及其控制方法有效
申请号: | 201810201458.1 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108416034B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 孙善辉 | 申请(专利权)人: | 宿州学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 234000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 金融 异构大 数据 信息 采集 系统 及其 控制 方法 | ||
1.基于金融异构大数据的信息采集系统,包括互联网信息源、Linux后台服务端系统、Web客户端程序系统和客户终端,其特征在于,所述互联网信息源、Linux后台服务端系统、Web客户端程序系统、客户终端依次相连,所述Linux后台服务端系统包括异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块,所述异构信息收集及预处理模块、抽取规则生成模块、信息抽取评估模块依次相连,所述异构信息收集及预处理模块包括爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器,所述爬虫URL解析器、PDF解析器、搜索引擎检索器、HTML解析器、数据存储器依次相连,所述抽取规则生成模块包括规则归类单元、规则合成单元,所述规则归类单元和规则合成单元相连,所述规则合成单元包括匹配器、比较器、泛化器,所述匹配器、判断器、泛化器依次相连,所述信息抽取评估模块包括第一数据库、第二数据库、第一数据比较器,所述第一数据库和第二数据库均与第一数据比较器相连,
所述爬虫URL解析器用于从互联网信息源搜索最新发布的金融公告信息,并解析成PDF文档形式,或通过搜索引擎检索器处理成网页数据;
所述PDF解析器用于将PDF文档处理成可处理形式的纯文本数据;
所述HTML解析器用于将网页数据解析成纯文本数据;
所述规则归类单元用于将不同文档内针对同一目标实体的规则进行归类,进而得到同一目标的规则子集合;
所述匹配器用于将规则子集合匹配到训练样本上;
所述判断器用于判断是否还有训练集,无训练集时系统会完成规则子集合的规则生成,并最终形成规则库,有训练集时系统会重复规则子集合在训练样本上的匹配;
所述泛化器用于对现有规则进行泛化。
2.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述爬虫URL解析器包括控制器模块、解析模块、资源库模块,所述解析模块包括网页抓取单元、网页信息特征提取单元、网页信息分类建模单元、数据储存单元、计算机分析单元和计算机显示单元,所述网页抓取单元、网页信息特征提取单元、网页信息分类建模单元依次相连,所述网页信息分类建模单元和数据储存单元均与计算机分析单元相连,所述计算机分析单元与计算机显示单元相连;所述计算机分析单元包括数据提取器、数据接收器和第二数据比较器。
3.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述泛化器采用基于启发式函数的规则泛化方法,且采用Laplacian误差估计作为启发函数。
4.根据权利要求1所述的基于金融异构大数据的信息采集系统,其特征在于,所述第一数据库包括准确率、召回率、F-measure三个参数,所述第二数据库存储有三个预先设置的且分别与准确率、召回率、F-measure对应的基准值。
5.根据权利要求1所述的基于金融异构大数据的信息采集系统的控制方法,其特征在于,按以下步骤进行操作:
第一步:首先,系统在互联网信息源上使用爬虫URL解析器搜索最新发布的金融产品,当遇到无法处理的PDF文档时,爬虫URL解析器通过搜索引擎检索器检索Web页面进行替代,异构信息采集与预处理模块中设计了PDF文档和Web信息的解析器,负责对异构文档进行解析并从中提取出文本信息,转存为后续处理数据;
第二步:其次,在抽取规则生成模块中,系统从标注过的训练样本中生成规则集合,规则集合通过聚类和合成,将结果导入最终的规则库;
第三步:最后,系统通过信息抽取评估模块应用规则库在未知数据上进行信息抽取,系统处于迭代运行状态,异构信息收集和预处理模块不断向后续模块提供文本信息,当某次抽取任务无法满足预置要求时,文档会被记录下,并预备进入下一个异构信息处理过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿州学院,未经宿州学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810201458.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置