[发明专利]一种基于人工辅助的数据源采集方法、装置及设备在审
申请号: | 201811299511.2 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109299181A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 杨小龙 | 申请(专利权)人: | 郑州市景安网络科技股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集规则 数据源 数据源采集 采集程序 人工辅助 采集 可读存储介质 设备计算机 装置及设备 采集数据 提示信息 提醒用户 预先设置 直接获取 兼容性 预设 重构 调用 查询 | ||
本发明公开了一种基于人工辅助的数据源采集方法,能够在确定待采集的数据源之后,判断是否存在预先为该数据源设置的采集规则,在存在采集规则时直接获取采集规则,而不存在采集规则时,生成提示信息以提醒用户为该数据源设置采集规则,最后调用预设采集程序根据采集规则对数据源进行采集。可见,该方法预先为数据源设置了采集规则,在采集之前先通过查询预先设置的内容或者通过人工介入确定待采集数据源的采集规则,避免了由于数据源的不同而重构采集程序的过程,提高了采集效率,还提高了采集程序的兼容性和灵活性。此外,本发明还提供了一种基于人工辅助的数据源采集装置、设备计算机可读存储介质,其作用与上述方法相对应。
技术领域
本发明涉及数据源识别采集领域,特别涉及一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质。
背景技术
我们知道,在进行数据源采集的时候,因为数据源可能是未知的,因此数据源格式可能多样化,为了更好的对数据源进行采集,往往需要在采集之前对数据源进行格式识别。
然而,传统的识别程序往往只能识别已知或者是已经写入系统的数据源格式,不能很好的兼容新的数据源,每次遇到新的数据源需要重构程序或者方法,这使得程序的处理效率变得较低,程序的灵活性受到了限制。
发明内容
本发明的目的是提供一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质,用以解决传统的识别程序只能识别已知或者是已经写入系统的数据源格式,因此遇到新的数据源时往往需要重构程序或者方法,使得程序的处理效率较低,且限制了程序灵活性的问题。
为解决上述技术问题,本发明提供了一种基于人工辅助的数据源采集方法,包括:
确定待采集的数据源;
判断是否存在预先为所述数据源设置的采集规则;
若存在预先为所述数据源设置的采集规则,则获取所述采集规则;
若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则;
调用预设采集程序根据所述采集规则对所述数据源进行采集。
其中,所述确定待采集的数据源包括:
确定待采集的数据源的标识信息;
所述判断是否存在预先为所述数据源设置的采集规则包括:
根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则。
其中,所述根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则包括:
遍历识别库,判断所述识别库中是否存在所述标识信息,其中,所述识别库为预先设置的,所述识别库保存有数据源的标识信息,还保存有与所述标识信息对应的采集规则;
若所述识别库中存在所述标识信息,则判断所述识别库中是否存在与所述标识信息对应的采集规则。
其中,在所述生成提示信息以提醒用户为所述数据源设置采集规则之后,还包括:
将用户为所述标识信息的数据源设置的采集规则保存到所述识别库中。
其中,所述数据源包括以下数据类型中的任意一项或任意组合:文本、图片、视频、以及音频。
其中,所述采集规则包括采集位置和/或采集顺序。
相应的,本发明还提供了一种基于人工辅助的数据源采集装置,包括:
数据源确定模块:用于确定待采集的数据源;
判断模块:用于判断是否存在预先为所述数据源设置的采集规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州市景安网络科技股份有限公司,未经郑州市景安网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811299511.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据仓库ETL操作系统
- 下一篇:数据库的会话连接的管理方法和装置