[发明专利]一种基于爬虫技术的核电厂化学品知识库构建方法在审
申请号: | 202211253802.4 | 申请日: | 2022-10-13 |
公开(公告)号: | CN115687296A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 郭天宇;刘国仿;白喆;姚祥英;黄萍 | 申请(专利权)人: | 核动力运行研究所 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/2457;G06F16/951;G06F16/955;G06Q50/06 |
代理公司: | 核工业专利中心 11007 | 代理人: | 李东斌 |
地址: | 430223 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 技术 核电厂 化学品 知识库 构建 方法 | ||
本发明提供了一种基于爬虫技术的核电厂化学品知识库构建方法,包括以下步骤:步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件;步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中;步骤3:将数据展示在核电厂业务系统中以利于核电员工查询学习。本发明提供的核电厂化学品知识库构建方法建立完善化学品知识库,配合智能搜索引擎,可保证数据实时性,并可便捷高效对化学品信息进行查询学习,能够便捷的、系统的、全面的提供员工学习核电领域使用的化学品知识。
技术领域
本发明涉及核电厂化学品知识库构建技术领域,尤其涉及一种基于爬虫技术的核电厂化学品知识库构建方法。
背景技术
在核电厂的生产运行和检修活动中,用到了大量的化学品,其中包括多种危险化学品,化学品若使用、保管不当,不仅会对核电系统、设备造成危害,还会影响社会环境与人体健康,因此核电员工需要对化学品的特性十分了解,而目前核电领域并没有形成一套完整的化学品知识库,供核电员工查询学习。当员工需了解一个化学品时需去网上搜索下载该化学品的MSDS,由于下载版本多样,或者MSDS文件内容又极为冗长,核电领域关注重点不够突出,查找下载文件过程费时费力,效率低下,员工进行查询学习极为不便而且不能系统地学习了解。员工对化学品特性不了解,容易造成乱用、用错、防护不当,当遭遇危险化学品突发事件时,若员工对危险化学品应急预案不熟悉,不知如何处理,也不能快速处理,易造成人因事故,对核电系统、设备或者社会环境及人体健康造成危害。
发明内容
本发明的目的在于克服现有技术中所述的缺陷,从而提供一种基于爬虫技术的核电厂化学品知识库构建方法,解决员工查找下载文件过程费时费力、无法及时获得化学品应急预案的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于爬虫技术的核电厂化学品知识库构建方法,包括以下步骤:
步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件;
步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中;
步骤3:将数据展示在核电厂业务系统中以利于核电员工查询学习。
步骤1具体包括如下步骤:
步骤11:对核电领域常用化学品进行数据分析,根据分析结果配置爬虫的搜索策略;
步骤12:启动爬虫程序对指定网站爬取最新版本化学品MSDS文件。
步骤2具体包括如下步骤:
步骤21:通过文件解析将数据结构化,建立数据实体映射关系;
步骤22:将结构化数据保存至关系型数据库中并记录数据版本。
其中,化学品MSDS文件格式为PDF格式。
步骤3具体包括如下步骤:
步骤31:选取核电领域所关注的化学品字段信息展示在核电厂业务系统上,通过智能化搜索引擎,便于核电员工查询学习;
步骤32:利用移动端APP,通过扫化学品二次标签上二维码随时查看化学品应急预案。
化学品字段信息包括化学品成分信息、健康危害信息、使用时预防措施、特性、应急响应信息。
基于爬虫技术的核电厂化学品知识库构建方法还包括步骤4:配置定时任务定期去指定网站爬取最新版本的化学品MSDS,解析保存至关系型数据库中,以保证化学品MSDS及时升版。
与现有技术相比,本发明提供的基于爬虫技术的核电厂化学品知识库构建方法具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于核动力运行研究所,未经核动力运行研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211253802.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:泵浦源及激光器
- 下一篇:一种太阳位置跟踪装置