[发明专利]一种短文本实体消歧方法有效

专利信息
申请号: 202110366911.6 申请日: 2021-04-06
公开(公告)号: CN112906397B 公开(公告)日: 2021-11-19
发明(设计)人: 文万志;姜文轩;李喜凯;葛威;朱恺;吴雪斐;袁佳祺 申请(专利权)人: 南通大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35;G06N3/04
代理公司: 北京科家知识产权代理事务所(普通合伙) 11427 代理人: 宫建华
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 实体 方法
【说明书】:

发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。

技术领域

本发明属于自然语言处理领域,具体涉及一种短文本实体消歧方法,是一种有效的基于深度学习Long-Short Term Memory RNN(LSTM)和Bidirectional EncoderRepresentation from Transformers(BERT)模型的实体消歧技术,主要用于解决公司实体在不同短文本中指向不同的意思的问题。

背景技术

互联网时代,信息爆炸,面对海量咨询,人们希望前沿AI技术能够将文本和海量实体(公司、人名等)信息关联起来,提升用户阅读流畅度,实现精准化内容推荐等。智能咨询处理,不仅给金融业提供智能化服务,还能为金融业务提供更多创新空间。

文本资讯是公司实体信息传播的主要媒介,精确定位发生新闻的公司实体直接决定如何开展下游金融工作。在金融资讯中,公司实体(公司实体数以千万计)多以领域简称的形式出现,从而引发歧义。例如,苹果是一个美国上市公司,也是一种水果。实体消歧旨在消除资讯处理过程中的实体多义问题,提纯文本信息。歧义消除一般通过结合实体知识实现。近年来,人工智能技术飞速发展,使得众多问题的解决成为可能,人们希望能应用前沿人工智能方法,解决智能资讯中的实体歧义问题。

传统实体消歧任务主要是基于知识库的长文本,知识库较全,长文本具有更丰富的上下文信息以辅助实体消歧,基于垂直域(公司实体)消歧数据的实体消歧系统构建存在更大挑战。

鉴于BERT模型具有并行能力,提取特征以及对文本双向建模的能力,可以用较少的数据和较短的时间获得较好的结果,而长短期神经网络可以保留较重要的信息,忘记冗余信息,将这两种技术结合起来并使用二分类技术,对实体消歧,提出了一种新型的基于深度学习的实体消歧技术。

发明内容

本发明要解决的技术问题是提供一种短文本实体消歧方法,能够有效地帮助自然语言处理开发人员以及相关读者根据自己的需求判断待消歧词是否为公司名,具有较高的精确率和效率。

为解决上述技术问题,本发明的实施例提供一种短文本实体消歧方法,包括如下步骤:

S1、对训练样本和测试样本进行分词;

S2、对样本以待消歧实体为中心进行切分;

S3、将包含待消歧实体的样本转化为BERT模型预训练好的词向量;

S4、构建神经网络模型;

S5、使用交叉熵计算神经网络输出的一维向量和该样本的标签向量之间的值,作为损失函数,优化神经网络参数模型;

S6、使用微软Neural Network Intelligence(NNI)寻找训练准确率较高的参数。

其中,步骤S1的具体步骤为:

S1.1、为所有实体名(包含公司全称和简称)创建词典,对训练样本和测试样本使用jieba分词技术找出所有待消歧的实体;

S1.2、对待分词的文本生成前缀树,并用正则匹配构建潜在串序的有向无环图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110366911.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top