[发明专利]开放关系抽取方法、装置、电子设备及存储介质有效
| 申请号: | 202110428927.5 | 申请日: | 2021-04-21 | 
| 公开(公告)号: | CN113051356B | 公开(公告)日: | 2023-05-30 | 
| 发明(设计)人: | 朱昱锦 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 | 
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35 | 
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 | 
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 开放 关系 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种开放关系抽取方法,其特征在于,所述方法包括:
获取原始实体数据集及原始关系数据集,分别对所述原始实体数据集及所述原始关系数据集进行远程监督,并将监督到的所述原始实体数据集与所述原始关系数据集进行实体链指,得到原始训练集,其中,获取原始实体数据集及原始关系数据集包括:利用预设的数据抓取工具从源网站中抓取文本数据,并对所述文本数据进行切分,得到文本断句,汇总所述文本断句得到所述原始关系数据集;获取开源的实体数据集,包括三元组信息及每个三元组信息对应的描述信息,并对所述三元组信息进行去重处理得到去重三元组,汇总所述去重三元组及所述三元组信息对应的描述信息得到所述原始实体数据集;
对所述原始训练集依次进行策略标注及实体加强处理,得到标准训练集,包括:利用预设的标注符号对所述原始训练集中的文本断句进行分类得到分类样本,并对所述分类样本中的三元组进行标注得到标注实体,及,利用预设的自然语言处理库对所述标注实体进行实体加强处理,汇总加强后的分类样本得到所述标准训练集;
获取预训练的语言模型,利用所述标准训练集对所述语言模型进行实体微调,得到开放实体抽取模型,及利用所述标准训练集对所述语言模型进行关系微调,得到开放关系抽取模型;
对待分类文本进行切分,得到切分文本,并利用所述开放实体抽取模型提取所述切分文本中的实体;
利用所述开放关系抽取模型预测所述实体的实体关系,并对所述实体及所述实体关系进行聚类,得到关系抽取结果;
其中,所述利用所述标准训练集对所述语言模型进行实体微调,得到开放实体抽取模型,及利用所述标准训练集对所述语言模型进行关系微调,得到开放关系抽取模型,包括:
在所述分类样本中随机添加空白位,得到训练样本,利用所述语言模型预测所述训练样本中的实体,得到预测实体;
计算所述预测实体和所述训练样本中真实实体的差值,当所述差值小于预设的阈值时,确定所述语言模型为所述开放实体抽取模型;
利用预设的关系跨度预测层计算所述预测实体间的关系跨度;
基于所述关系跨度,利用预设的二分类线性层输出所述预测实体间的预测结果,其中,所述预测结果包括关系存在;
当所述关系存在的预测结果与所有预测结果的比值大于预设的关系阈值时,组合所述语言模型、所述关系跨度预测层及所述二分类线性层,以得到所述开放关系抽取模型。
2.如权利要求1所述的开放关系抽取方法,其特征在于,所述分别对所述原始实体数据集及所述原始关系数据集进行远程监督,并将监督到的所述原始实体数据集与所述原始关系数据集进行实体链指,得到原始训练集,包括:
将所述原始实体数据集中的三元组信息和所述原始关系数据集中的文本断句进行匹配,并根据匹配结果进行位置标注,得到匹配数据;
利用预构建的消歧模型,计算所述匹配数据中所述匹配结果及所述原始实体数据集中所述三元组信息对应的描述信息的匹配概率;
当所述匹配概率大于预设阈值时,汇总所述文本断句及所述三元组信息得到所述原始训练集。
3.如权利要求1所述的开放关系抽取方法,其特征在于,所述对待分类文本进行切分,得到切分文本,并利用所述开放实体抽取模型提取所述切分文本中的实体,包括:
根据所述待分类文本中的标点符号将所述待分类文本进行断句,得到待分类断句;
利用所述开放实体抽取模型抽取所述待分类文本中的所有实体,得到待分类实体。
4.如权利要求3所述的开放关系抽取方法,其特征在于,所述利用所述开放关系抽取模型预测所述实体的实体关系,并对所述实体及所述实体关系进行聚类,得到关系抽取结果,包括:
基于所述待分类实体,利用所述开放关系抽取模型抽取所述待分类断句中的关系,并过滤掉没有关系的所述待分类实体,得到预测三元组;
利用预设的聚类方法对所述预测三元组进行聚类,得到多个聚类团,其中,所述聚类团中包括所述关系抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110428927.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人造石加工工艺
- 下一篇:一种数控建筑金属型材加工机床





