[发明专利]一种短文本实体消歧方法有效
申请号: | 202110366911.6 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112906397B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 文万志;姜文轩;李喜凯;葛威;朱恺;吴雪斐;袁佳祺 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N3/04 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 宫建华 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 方法 | ||
1.一种短文本实体消歧方法,其特征在于,包括如下步骤:
S1、对训练样本和测试样本进行分词;
S2、对样本以待消歧实体为中心进行切分;
S3、将包含待消歧实体的样本转化为BERT模型预训练好的词向量;
S4、构建神经网络模型;
S5、使用交叉熵计算神经网络输出的一维向量和该样本的标签向量之间的值,作为损失函数,优化神经网络参数模型;
S6、使用微软Neural Network Intelligence(NNI)寻找训练准确率较高的参数;
其中,步骤S3的具体步骤为:
S3.1、对经过裁剪的训练和验证样本的每个句子中的每个词找到BERT预训练模型对应的id;
S3.2、标识每个句子的长度,用0和1作为掩码,0代表该位置没有单词,1代表该位置有单词,则每个句子转化为一个二元向量组[I,T,L,M],其中,I标识每个单词对应的BERT模型id;T标识该样本是否为公司名,其中1标识是公司名,0标识不是公司名;L表示该句子的长度;M为每个句子的掩码;
S3.3、对所有训练集进行分批次处理,每32个样本作为一个批次,优化参数;
步骤S4的具体步骤为:神经网络模型分为三个子模块:
S4.1、BERT转换模块,此模块用于将步骤3.1中的id转换为实际预训练的BERT模型向量;
S4.2、LSTM模块,此模块作为第一层训练模型,便于学习语句序列之间的信息;
S4.3、线性输出模块,此模块用于作为最终输入向量;
步骤S4.1中,对于BERT模型,在计算中保留对应的梯度信息,其公式为:
其中,loss为损失函数,w为权重,yi为真实值;
步骤S4.2中,LSTM模块使用dropout算法,对于每层的神经元,按照一定的概率将其暂时从网络中丢弃,每次迭代训练时,随机选择不同的神经元,相当于每次都在不同的神经网络上进行训练;
步骤S4.3中,线性输出模块使用Attention机制,Attention机制对句子中的每个字有重要影响的Tokens序列给予更高的权重;Tokens的Attention分数计算公式如下:
其中,fT是线性层,是第t个Tokens的隐藏层状态,cT是Tokens的上下文向量。
2.根据权利要求1所述的短文本实体消歧方法,其特征在于,步骤S1的具体步骤为:
S1.1、为所有实体名创建词典,对训练样本和测试样本使用jieba分词技术找出所有待消歧的实体;
S1.2、对待分词的文本生成前缀树,并用正则匹配构建潜在串序的有向无环图;
S1.3、通过动态规划找出最大概率路径的分词方案,为了让分词效果适应文本,使用维特比算法求解HMM模型,挖掘新词。
3.根据权利要求1所述的短文本实体消歧方法,其特征在于,步骤S2的具体步骤为:
S2.1、对句子进行切分,同时对句子进行编码时只选32个字;
S2.2、以实体名为中心切分句子,先找到实体名在文本中的位置,再将实体名的前13个字和后14个字划分成一个句子,其中实体名固定占5个字节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110366911.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:更换合成绝缘子金具的专用工具
- 下一篇:一种城市管廊暗挖隧道联合支护装置