[发明专利]开放关系抽取方法、装置、电子设备及存储介质有效
| 申请号: | 202110428927.5 | 申请日: | 2021-04-21 |
| 公开(公告)号: | CN113051356B | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 朱昱锦 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 开放 关系 抽取 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据分析技术,揭露了一种开放关系抽取方法,包括:利用远程监督及实体链指技术,得到原始训练集,对所述原始训练集进行策略标注及实体加强处理,得到标准训练集,利用所述标准训练集对预训练的语言模型进行实体微调及关系微调,得到开放实体抽取模型及开放关系抽取模型,利用所述开放实体抽取模型提取待分类文本中的实体,利用所述开放关系抽取模型预测所述实体的实体关系,对所述实体及所述实体关系进行聚类,得到关系抽取结果。此外,本发明还涉及区块链技术,所述关系抽取结果可存储在区块链的节点中。本发明还提出一种开放关系抽取装置、电子设备以及计算机可读存储介质。本发明可以解决解决开放关系抽取效率较低的问题。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种开放关系抽取方法、装置、电子设备及计算机可读存储介质。
背景技术
关系抽取是信息提取与知识图谱构建领域的重要支撑技术,有许多实践场景,例如构建大规模通用/垂直领域图谱、从申请表中提取信息进行贷前审核等。但传统的关系抽取技术面临两个问题而难以投入实践:1)需要较多标注数据训练关系分类模型,导致数据成本和标注成本高昂;2)关系类型往往需要业务定义,有限而不可变更,现实中许多需求则并没有预定义的关系集。
基于此,近年来开放关系抽取技术得到关注。开放关系抽取技术要求输入一段文本,从中自动输出所有可能的关系三元组(头实体,关系,尾实体)与二元组(头实体,尾实体)。其中,三元组内的“关系”字段为上下文中自带的描述词。由于类型不确定,开放关系抽取一直难以处理。传统方案主要有:1、采用语法规则(rule-based)结合自举法(booststrapping)方式匹配,经典方法有ReVerb、OLLIE、OpenIE等,但这些方案大多针对英文,难以迁移至中文文本,且匹配规则严格,处理方式不灵活;2、利用序列标注模型思路解析表层形式(surface form),将关系也看作一类实体,用语义角色标注算法直接从文本中提取三元组,如SurfaceForm-SRL,但这种方法在找不到关系提及(mention)的情况下失效,也无法处理包含多个三元组的句子,导致关系抽取准确率低;3、利用半指针半标注方案,该方案利用两层网络块处理文本,首先从文本中提取头实体,然后根据头实体与隐藏层输出联合提取尾实体并判断关系类型,这就构成一个行为关系类数,列为文本长度的样本矩阵,但是当处理的是开放关系抽取时,关系类型数变为文本长度,使得模型需要计算一个大小为批样本数×头实体个数×文本长度×文本长度的张量,虽然解决了文本中多三元组问题,也提升了精度,但占用大量计算资源,效率极低。
发明内容
本发明提供一种开放关系抽取方法、装置及计算机可读存储介质,其主要目的在于解决开放关系抽取效率较低的问题。
为实现上述目的,本发明提供的一种开放关系抽取方法,包括:
获取原始实体数据集及原始关系数据集,分别对所述原始实体数据集及所述原始关系数据集进行远程监督,并将监督到的所述原始实体数据集与所述原始关系数据集进行实体链指,得到原始训练集;
对所述原始训练集依次进行策略标注及实体加强处理,得到标准训练集;
获取预训练的语言模型,利用所述标准训练集对所述语言模型进行实体微调,得到开放实体抽取模型,及利用所述标准训练集对所述语言模型进行关系微调,得到开放关系抽取模型;
对待分类文本进行切分,得到切分文本,并利用所述开放实体抽取模型提取所述切分文本中的实体;
利用所述开放关系抽取模型预测所述实体的实体关系,并对所述实体及所述实体关系进行聚类,得到关系抽取结果。
可选地,所述获取原始实体数据集及原始关系数据集,包括:
利用预设的数据抓取工具从源网站中抓取文本数据,并对所述文本数据进行切分,得到文本断句,汇总所述文本断句得到所述原始关系数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110428927.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人造石加工工艺
- 下一篇:一种数控建筑金属型材加工机床





