[发明专利]一种自然语言的摘要生成方法有效
申请号: | 202110579062.2 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113220870B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 郭树理;宋晓伟;韩丽娜;王国威;杨文涛 | 申请(专利权)人: | 北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06N7/00;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 摘要 生成 方法 | ||
1.一种基于Seq2seq模型的摘要生成方法,其特征在于,包括:
将待生成摘要的文本使用最大熵隐马尔可夫模型进行中文分词;
将分词后的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要;
对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,表示t时刻第i个节点的输入,ζb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,表示t时刻第h个节点的输出,ζs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,表示t时刻第c个节点的状态,表示t时刻输入门的状态,表示t时刻输入门的输出,g(·)表示输入门的激活函数,wiφ表示遗忘门中输入节点i到隐藏节点φ的连接权重,ηb表示遗忘门中输出节点系数,whφ表示遗忘门中输出节点h到隐藏节点φ的连接权重,ηs表示遗忘门中隐藏节点系数,wcφ表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,表示t时刻遗忘门的状态,表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
2.根据权利要求1所述的方法,其特征在于,对所述最大熵隐马尔可夫模型的目标函数进行调整,直接采用与文本特性直接相关的特征函数关系来计算当前误差。
3.根据权利要求2所述的方法,其特征在于,所述最大熵隐马尔可夫模型估计每个局部标记的概率模型为:
其中λ=λ1,λ2…λi…λn代表输入的句子,n为句子长度,λi表示句子中的每个字,o=o1,o2…oi…on代表输出的标签序列,每个字的标签为以下四个标记的一种:B、M、E、S,其中,B表示词语开始,M表示中间词,E表示单词的结尾,S表示单个字,gi表示当前的输入序列,表示如下:
gi=<oi-2,oi-1,λ1,λ2…λn,i>
fj(gi,λi)为gi,λi的第j个特征函数,f(gi,λi)共有J个特征函数,每个特征函数用布尔函数表示,函数值只能有1或者0两种情况,即:
γj为fj(gi,λi)相关联的需要学习的权重,
所述γj利用条件极大似然估计进行训练,其中需要最大化的目标函数是:
其中,为对oi=B或M或E或S时进行求和。
4.根据权利要求1所述的方法,其特征在于,所述最大熵隐马尔可夫模型的解码过程采用改进的Viterbi算法,所述改进为:在Viterbi算法求解最优路径概率的过程中用自适应阈值直接裁减掉不可能或者低概率的路径,其中δt(i)代表时刻t第i个字的所有单个路径的概率,b为自适应阈值中的参数,其作用为去掉所有路径中概率排序靠后的(1-b)*100%比例的路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院,未经北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110579062.2/1.html,转载请声明来源钻瓜专利网。