[发明专利]一种基于化工分析报告的文本数据抽取方法在审
申请号: | 202011286208.6 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112364179A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 杜文莉;王冰;钱锋;唐漾 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/34 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陶玉龙;陆嘉 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 化工 分析 报告 文本 数据 抽取 方法 | ||
本发明涉及信息提取分析领域,更具体的说,涉及一种基于化工分析报告的文本数据抽取方法。本发明提出的基于化工分析报告的文本数据抽取方法,包括以下步骤:S1构建停用词典步骤,构建针对化工分析报告的停用词典,过滤无意义信息,所述停用词典,包括常见停用词和专用停用词;S2信息提取步骤,提取化工分析报告中的文本信息,所述文本信息包含关键词信息、本体信息和三元组信息;S3关键词分析步骤,统计和可视化分析报告中的关键词信息;S4形成结构化数据步骤,将提取到的数据转化为结构化数据。本发明,抽取分析结果可信度较高,具有较高的准确率和召回率,有利于辅助行业人员快速准确高效分析化工分析报告,大大减轻化工行业人员的负担。
技术领域
本发明涉及信息提取分析领域,更具体的说,涉及一种基于化工分析报告 的文本数据抽取方法。
背景技术
近年来,化工安全事故频发,HAZOP(危险与可操作性)化工分析报告 被认为是可极大提高工厂生产安全性、可靠性的一种安全评价方法,在杜绝、 减少事故发生以及事故原因分析等方面发挥积极重要作用。
然而,面对HAZOP化工分析报告的众多表格数据和描述信息,行业人员 短时间内难以得到最有效的信息。
近年来,面对互联网上类型繁多且数量庞大的文本信息,文本自动处理的 知识抽取技术受到越来越多人的关注。随着人工智能技术的迅速发展,越来越 多化工生产行业的人员更倾向于用人工智能技术辅助分析HAZOP化工分析报 告,用以决策。
在现有技术中,大多数的文档抽取都是针对文本信息提取,抽取大量文本 信息中的实体、主题等信息。对于化工领域的HAZOP化工分析报告,目前研 究较少,急需人工智能信息提取技术,抽取行业关键信息,来辅助行业人士更 加全面的分析HAZOP化工分析报告。
中国发明专利CN 201910059221.9公开了一种文本抽取模型训练方法将 问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标 注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少 量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升。 该方法并不是针对化工领域的HAZOP化工分析报告,对于抽取HAZOP化工 分析报告的文本数据的准确率和精确程度比较差。
发明内容
本发明的目的是提供一种基于化工分析报告的文本数据抽取方法,解决现 有技术对于化工分析报告的信息提取困难、准确率差和效率低的问题。
为了实现上述目的,本发明提供了一种基于化工分析报告的文本数据抽取 方法,包括以下步骤:
S1构建停用词典步骤,构建针对化工分析报告的停用词典,过滤无意义 信息,所述停用词典,包括常见停用词和专用停用词;
S2信息提取步骤,提取化工分析报告中的文本信息,所述文本信息包含 关键词信息、本体信息和三元组信息;
S3关键词分析步骤,统计和可视化分析报告中的关键词信息;
S4形成结构化数据步骤,将提取到的数据转化为结构化数据。
在一实施例中,所述步骤S1的常见停用词,包括标点符号、数学符号和 日常用词。
在一实施例中,所述步骤S1的专用停用词,包括与分析无关的化工工艺、 化工生产和物流参数的字词符号。
在一实施例中,所述步骤S2中:
所述关键词信息,包括安全操作建议、原因描述和后果描述中的关键词, 将得到的关键词形成列表形式;
所述本体信息,包括装置、物流、化学品、单元操作和工艺参数信息;
所述三元组信息,包括存在物流关系、因果关系的实体信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286208.6/2.html,转载请声明来源钻瓜专利网。