[发明专利]一种基于表示学习的实体发现和实体链接联合优化方法在审
| 申请号: | 202210904197.6 | 申请日: | 2022-07-29 |
| 公开(公告)号: | CN115329093A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 宫继兵;李青;赵金烨;房小涵;赵祎;丛方鹏 | 申请(专利权)人: | 燕山大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/242;G06F16/903;G06N5/02;G06N3/04;G06N3/08 |
| 代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 田秀芬 |
| 地址: | 066004 河北*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 表示 学习 实体 发现 链接 联合 优化 方法 | ||
1.一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:实体链接的结果能够对实体发现进行优化,包括以下步骤:
步骤1,获取数据集;
步骤2,构建锚文本词典;
步骤3,定义并构建片段循环神经网络模型进行实体提取算法;
步骤4,实体链接的特征选取;
步骤5,神经排序模型的构建。
2.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤2中,具体包括:
2.1,通过抽取百度百科的锚文本,构建锚文本词典,词典中的每个键看作是一个实体的提及,对应的值看作是知识库中对应该实体的提及;
2.2,引入实体提及m的先验概率,定义所述先验概率为:
link_prob(m)=freq(m)|count(m)
式中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中所有出现的次数;
2.3,进行过滤,去除噪声。
3.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤3中,具体包括:
3.1,输入层w1,w2,…,wm是字符向量和预先训练的词向量的拼接,字符向量通过一个双向的LSTM网络进行学习,上下文LSTM模型对上下文特征进行建模;
3.2,将实体发现的处理单元由单个词转化为词序列片段,将输入序列进行切分,直接预测词序列片段的长度,并给每个片段标记一个标签,对实体进行分类,利用片段循环神经网络进行实体发现,标签空间是y={LOC,ORG,PER,MISC,O},目的是在输入的词序列w1,w2,…,wm上的最大化联合概率分布:p(y,z|x)。
4.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤4中,所述实体链接特征选取的约束条件包括:
(1)实体相关特征,包括实体的先验概率,先验概率为:
link_prob(m) = freq(m)|count(m) (1)
式中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中所有出现的次数,表示实体在知识库中出现的概率;
(2)实体和上下文相似度,表示实体和实体提及上下文文本之间的相似度,由于上下文中未必所有的词都对实体链接有帮助,因此我们采用注意力加权的上下文词向量的平均来表示上下文向量;如下公式所示:
式中,akj表示第k个单词的注意力权重,用来挑选上下文中与实体最相关的词;
(3)实体和实体提及的相似度,使用如下公式进行计算:
式中,表示实体名称和实体提及字符串的编辑距离,len(s)表示字符串的长度;
(4)实体和上下文中其他实体的相似度,表示了文本中实体的一致性,使用上下文实体集合中所有实体向量的平均向量来表示上下文实体集合,使用候选实体向量和上下文实体集合向量的余弦相似度来表示两者之间的相似度;在预测时,对于第一个处理的实体来说,上下文实体集合为空,这时强制设置候选实体集合中所有实体的该特征值为1,因此,对于第一个被处理的实体提及-候选实体集合来说,实体链接的结果取决于其它特征。
5.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤5中,具体包括:
5.1,经过LSTM模型训练的词的表示和词的字符;
5.2,词和实体联合表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210904197.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无信号交叉口混合交通通行控制方法、装置及车辆
- 下一篇:腔镜系统





