[发明专利]一种构建部署文本实体关系提取模型的方法和存储设备有效
| 申请号: | 202011258349.7 | 申请日: | 2020-11-12 |
| 公开(公告)号: | CN112417083B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 伍臣周;庄莉;苏江文;王秋琳;宋立华 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/295 |
| 代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 魏小霞;林祥翔 |
| 地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 构建 部署 文本 实体 关系 提取 模型 方法 存储 设备 | ||
1.一种构建部署文本实体关系提取模型的方法,其特征在于,包括步骤:
在源码管理平台上按第一预设规范创建项目工程,在数据存储平台按第二预设规范创建数据存储目录;
采集数据,并按第三预设规范对所述数据进行预处理,并存储预处理后的数据至对应的数据存储目录中;
根据第四预设规范对所述预处理后的数据进行标注,抽取评估数据,并根据第五预设规范对所述评估数据进行数据评估;
对标注后的数据进行切分成不同类型数据,所述不同类型数据包括以下中的一种或多种:训练数据、测试数据、评估数据,存储所述不同类型数据至对应的数据存储目录中;
选定训练模型,并将所述不同类型数据进行处理使得符合所述训练模型接收的数据格式,输入处理后的训练数据对所述训练模型进行训练;
根据处理后的测试数据和处理后的评估数据对训练后的训练模型进行模型评估,若评估合格,则发布评估合格的模型;
所述第一预设规范包括以下中的一种或多种:定义工程命名格式、定义过程数据、模型源码、辅助工具、相关文档存储目录;
所述第二预设规范包括以下中的一种或多种:定义数据存储目录命名格式,定义原始数据、预处理数据、标注数据、训练数据存储目录、测试数据存储目录、评估数据存储目录;
所述第三预设规范包括:将非结构化文档转换为纯文本文档;
所述第四预设规范包括:使用json格式存储标注数据,一份纯文本文档生成一份json文件;
所述第五预设规范包括以下中的一种或多种:各类数据数量分布情况、各类数据包含实体数量情况、标注质量、标注方式及时长;所述对标注后的数据进行切分成不同类型数据,所述不同类型数据包括以下中的一种或多种:训练数据、测试数据、评估数据,存储所述不同类型数据至对应的数据存储目录中,还包括步骤:
根据第六预设规范来划分训练数据,所述第六预设规范包括:将文本原本、标签类型、关系类型、实体详情、实体关系详情分别存储至不同的json文件;
根据第七预设规范来划分测试数据,所述测试数据包括以下中的一种或多种:原始数据、标签类型数据、关系类型数据;
根据第八预设规范来划分评估数据,所述评估数据包括以下中的一种或多种:实体标注数据、实体关系数据。
2.根据权利要求1所述的一种构建部署文本实体关系提取模型的方法,其特征在于,所述根据处理后的测试数据和处理后的评估数据对训练后的训练模型进行模型评估,还包括步骤:
通过模型评估脚本对处理后的测试数据和处理后的评估数据进行计算得评估指标值,所述评估指标值包括以下中的一种或多种:准确率、召回率、F1值;
通过综合分析训练模型的不同评估维度判断所述训练模型是否可发布,所述不同评估维度包括以下中的一种或多种:评估指标值、运行环境、Badcase分析。
3.根据权利要求1所述的一种构建部署文本实体关系提取模型的方法,其特征在于,所述则发布评估合格的模型,还包括步骤:
对所述评估合格的模型的训练进行自动化构建,并将所述模型的运行环境进行打包镜像处理,根据模型发布规范发布评估合格的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011258349.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扰流式污水处理搅拌装置
- 下一篇:一种便于清洁的装配式阳台封闭玻璃窗结构





