[发明专利]一种基于表示学习的实体发现和实体链接联合优化方法在审
| 申请号: | 202210904197.6 | 申请日: | 2022-07-29 |
| 公开(公告)号: | CN115329093A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 宫继兵;李青;赵金烨;房小涵;赵祎;丛方鹏 | 申请(专利权)人: | 燕山大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/242;G06F16/903;G06N5/02;G06N3/04;G06N3/08 |
| 代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 田秀芬 |
| 地址: | 066004 河北*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 表示 学习 实体 发现 链接 联合 优化 方法 | ||
本发明公开了一种基于表示学习的实体发现和实体链接联合优化方法,属于深度学习和自然语言处理技术领域,所述优化方法包括:步骤1,获取数据集;步骤2,构建锚文本词典;步骤3,定义并构建片段循环神经网络模型进行实体提取算法;步骤4,实体链接的特征选取;步骤5,神经排序模型的构建。本发明通过构建基于表示学习的实体发现和实体链接联合的模型,其中,基于片段式的循环神经网络可以直接对实体边界识别进行优化,而实体链接的信息又可以帮助实体发现进行边界识别,有效地解决了实体边界不准确影响实体链接的问题;有效避免了实体边界不准确影响实体链接效果的问题,并且可以同时优化实体发现和实体链接的结果。
技术领域
本发明涉及深度学习和自然语言处理技术领域,尤其是一种基于表示学习的实体发现和实体链接联合优化方法。
背景技术
随着越来越多网络平台的兴起,例如新闻网、微博、博客、百度百科等,产生了海量的数据,其中文本形式的数据占了很大比例,可以说各种形式的数据其实都有相应的文本描述,如:音乐有乐评,视频有影评等,对于这些以文本形式存在的数据,其中蕴含着大量有价值的信息,如何能够快速便捷的分析出这些海量文本所蕴含的信息,变得非常重要。自然语言处理(NLP)应运而生,旨在利用计算机帮助人们更快、更便捷分析文本信息中所蕴含的意想不到的联系。
实体发现和实体链接作为自然语言处理的基本技术,是近几年的研究热点。围绕实体发现和实体链接主要的难点和挑战,进行了实体发现和实体链接联合方法的研究。
发明内容
本发明需要解决的技术问题是提供一种基于表示学习的实体发现和实体链接联合优化方法,针对实体发现和实体链接之间的结果相互影响的关系,通过构建基于多任务学习的实体发现和实体链接联合优化模型,使用片段式循环神经网络进行实体边界的识别,使用神经排序模型进行实体链接;有效避免了实体边界不准确影响实体链接效果的问题,并且可以同时优化实体发现和实体链接的结果。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于表示学习的实体发现和实体链接联合优化方法,实体链接的结果能够对实体发现进行优化,包括以下步骤:
步骤1,获取数据集;
步骤2,构建锚文本词典;
步骤3,定义并构建片段循环神经网络模型进行实体提取算法;
步骤4,实体链接的特征选取;
步骤5,神经排序模型的构建。
本发明技术方案的进一步改进在于:步骤2中,具体包括:
2.1,通过抽取百度百科的锚文本,构建锚文本词典,词典中的每个键看作是一个实体的提及,对应的值看作是知识库中对应该实体的提及;
2.2,引入实体提及m的先验概率,定义所述先验概率为:
link_prob(m)=freq(m)|count(m)
式中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中所有出现的次数;
2.3,进行过滤,去除噪声。
本发明技术方案的进一步改进在于:步骤3中,具体包括:
3.1,输入层w1,w2,…,wm是字符向量和预先训练的词向量的拼接,字符向量通过一个双向的LSTM网络进行学习,上下文LSTM模型对上下文特征进行建模;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210904197.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无信号交叉口混合交通通行控制方法、装置及车辆
- 下一篇:腔镜系统





