[发明专利]一种基于化工分析报告的文本数据抽取方法在审
申请号: | 202011286208.6 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112364179A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 杜文莉;王冰;钱锋;唐漾 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/34 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陶玉龙;陆嘉 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 化工 分析 报告 文本 数据 抽取 方法 | ||
1.一种基于化工分析报告的文本数据抽取方法,其特征在于,包括以下步骤:
S1构建停用词典步骤,构建针对化工分析报告的停用词典,过滤无意义信息,所述停用词典,包括常见停用词和专用停用词;
S2信息提取步骤,提取化工分析报告中的文本信息,所述文本信息包含关键词信息、本体信息和三元组信息;
S3关键词分析步骤,统计和可视化分析报告中的关键词信息;
S4形成结构化数据步骤,将提取到的数据转化为结构化数据。
2.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S1的常见停用词,包括标点符号、数学符号和日常用词。
3.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S1的专用停用词,包括与分析无关的化工工艺、化工生产和物流参数的字词符号。
4.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S2中:
所述关键词信息,包括安全操作建议、原因描述和后果描述中的关键词,将得到的关键词形成列表形式;
所述本体信息,包括装置、物流、化学品、单元操作和工艺参数信息;
所述三元组信息,包括存在物流关系、因果关系的实体信息。
5.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S2中的关键词信息提取,进一步包括以下步骤:
S21读取化工分析报告的分析单元;
S22提取分析单元表格中的偏离信息;
S23提取分析单元表格中的位号、说明和偏差信息;
S24提取分析单元表格中的可能原因描述、以及可能原因中的关键词;
S25将分析单元表格中的可能原因提取为列表形式,并提取其中的关键词;
S26提取偏差的可能后果,并对其严重程度进行统计;
S27将分析单元表格中的后果频率及严重度提取为列表形式,统计严重程度;
S28提取分析单元表格中该偏离信息导致事故防范措施,提取关键词;
S29将分析单元表格中的建议措施提取为列表形式、提取其中关键词;
S210提取分析单元表格中安全操作建议的信息以及关键词;
S211将分析单元表格中安全操作建议提取为列表形式、提取其中关键词。
6.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S3,进一步包括以下步骤:
S31词频统计分析,统计提取得到的关键词词频,根据词频进行分析;
S32词云直观分析,以词云图形式分析化工分析报告的关键词信息。
7.根据权利要求1所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S4的结构化数据,进一步包括数据表格、知识三元组和关键数据表格。
8.根据权利要求7所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S4,进一步包括以下步骤:
将提取到的关键词词频、本体数据、装置、化学品的数据,转换为数据表格形式。
9.根据权利要求7所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S4,进一步包括以下步骤:
将存在关系的本体类的实体信息,转换为三元组形式的数据。
10.根据权利要求7所述的基于化工分析报告的文本数据抽取方法,其特征在于,所述步骤S4,进一步包括以下步骤:
将含有统计类型的数据和词频数据转换成专有信息统计报表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286208.6/1.html,转载请声明来源钻瓜专利网。