[发明专利]基于知识图谱的实体链接方法、装置、设备和存储介质有效
申请号: | 201910992304.3 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110929038B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 陈晨;雷骏峰;刘嘉伟;于修铭;李可;汪伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/955;G06F40/289 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 谢文强 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 实体 链接 方法 装置 设备 存储 介质 | ||
1.一种基于知识图谱的实体链接方法,其特征在于,包括:
获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中,所述实体指代是指实体的代称,一个所述实体指代对应有多个实体;
计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数分别与对应的各相关分数进行相加,得到多个目标函数;
在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中;
所述计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,包括:
所述关联分数由上下文无关分数与上下文相关分数相乘得到;
所述上下文无关分数sim(m,e)采用如下计算公式得到:
其中,m为实体指代,e为实体指代对应的候选实体集合中的其中一个候选实体,|m|和|e|分别表示m和e的字符串长度,ed(m,e)为距离公式,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,ws是预设的系数;
将所述实体指代的上下文与候选实体的属性进行向量化,通过计算两个向量的距离确定所述上下文相关分数;
所述计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,包括:
两个所述候选实体之间的相关分数sim(e1,e2)的计算公式为:
其中,e1、e2表示两个所述候选实体,E1表示与e1直接连接的实体集合,E2表示与e2直接连接的实体集合,|E1|表示E1中实体的数量,|E2|表示E2中实体的数量,E1∩E2表示两个集合的交集,|E|表示法律知识图谱中全部实体的数量;
所述将所述关联分数与对应的各相关分数进行相加,得到多个目标函数,包括:
所述目标函数的计算公式为:
其中,φ(mi,ei)为所述关联分数,coh(ei,ej)为两个所述候选实体之间的相关分数。
2.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述获取法律文本,对所述法律文本进行分词,得到分词结果,包括:
对获取的所述法律文本进行分词,得到的多个词语为分词结果,在进行分词时最小分词滑窗为预设的最小分词阈值,最大分词滑窗为所述法律文本长度。
3.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述映射表为预设的法律知识图谱中实体指代与实体之间的映射关系表,包括:
通过预设的爬虫脚本获取预设网站中的法律裁判文书;
对每篇所述法律裁判文书的内容进行解构,得到节点内容,所述节点内容包括但不限于原告、被告、争议焦点和证据;
将所述节点内容构建实体和属性之间的关系,得到法律知识图谱;
将所述法律知识图谱中的各实体与预设的映射关系表中的所述实体指代建立映射关系,得到更新后的映射关系表。
4.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述通过计算两个向量的距离确定所述上下文相关分数,包括:
通过计算两个向量的余弦距离得到所述上下文相关分数,所述余弦距离的计算公式为:
其中,表示两个向量,表示向量模长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910992304.3/1.html,转载请声明来源钻瓜专利网。