[发明专利]实体关系抽取方法、装置、数据标注系统以及存储介质在审
| 申请号: | 202110286687.X | 申请日: | 2021-03-17 |
| 公开(公告)号: | CN115114918A | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 贾丹;项超;王学敏;孟维业 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 方亮 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 关系 抽取 方法 装置 数据 标注 系统 以及 存储 介质 | ||
1.一种实体关系抽取方法,包括:
获取待标注文本,基于所述待标注文本生成词向量;
使用强化学习模型对所述词向量以及初始关系子图进行处理,获取所述词向量中的各个词之间的实体关系抽取信息;
基于所述实体关系抽取信息生成关系子图,使用关系图处理模型对所述关系子图进行处理,生成与所述关系子图相对应的关系子图特征信息;
基于所述词向量和所述关系子图特征信息,生成所述强化学习模型的状态信息,使用所述强化学习模型对所述状态信息进行处理,用以获取新实体关系抽取信息。
2.如权利要求1所述的方法,所述基于所述待标注文本生成词向量包括:
使用词向量生成模型对所述待标注文本进行处理,生成所述词向量;
其中,所述词向量生成模型包括:Word2Vec模型。
3.如权利要求2所述的方法,还包括:
构建用于对所述关系子图进行识别的所述关系图处理模型;
根据关系子图样本集合对所述关系图处理模型进行训练。
4.如权利要求3所述的方法,其中,
所述关系图处理模型包括:图卷积神经网络模型。
5.如权利要求1所述的方法,其中,
所述强化学习模型为基于Q学习的强化学习模型;所述强化学习模型的Q学习网络使用双向LSTM模型。
6.如权利要求1所述的方法,还包括:
将所述状态信息输入所述强化学习模型,获取与所述状态信息相对应的动作;
其中,所述动作包括:增加关系实体、在已有的关系实体之间增加关联关系、不增加实体以及关联关系。
7.如权利要求1所述的方法,还包括:
根据与所述待标注文本对应的目标实体关系抽取信息与所述新实体关系抽取信息,并使用预设的奖惩函数进行计算,得到奖惩处理结果;其中,奖惩处理结果包括:加分、减分、不改变分数;
基于所述奖惩处理结果,对所述强化学习模型进行优化处理。
8.一种实体关系抽取装置,包括:
词向量生成模块,用于获取待标注文本,基于所述待标注文本生成词向量;
识别处理模块,用于使用强化学习模型对所述词向量以及初始关系子图进行处理,获取所述词向量中的各个词之间的实体关系抽取信息;
关系子图处理模块,用于基于所述实体关系抽取信息生成关系子图,使用关系图处理模型对所述关系子图进行处理,生成与所述关系子图相对应的关系子图特征信息;
所述识别处理模块,还用于基于所述词向量和所述关系子图特征信息,生成所述强化学习模型的状态信息,使用所述强化学习模型对所述状态信息进行处理,用以获取新实体关系抽取信息。
9.如权利要求8所述的装置,其中,
所述词向量生成模块,用于使用词向量生成模型对所述待标注文本进行处理,生成所述词向量;其中,所述词向量生成模型包括:Word2Vec模型。
10.如权利要求9所述的装置,还包括:
模型训练模块,用于构建用于对所述关系子图进行识别的所述关系图处理模型;根据关系子图样本集合对所述关系图处理模型进行训练。
11.如权利要求10所述的方法,其中,
所述关系图处理模型包括:图卷积神经网络模型。
12.如权利要求8所述的装置,其中,
所述强化学习模型为基于Q学习的强化学习模型;所述强化学习模型的Q学习网络使用双向LSTM模型。
13.如权利要求8所述的装置,还包括:
所述识别处理模块,用于将所述状态信息输入所述强化学习模型,获取与所述状态信息相对应的动作;其中,所述动作包括:增加关系实体、在已有的关系实体之间增加关联关系、不增加实体以及关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286687.X/1.html,转载请声明来源钻瓜专利网。





