[发明专利]摘要生成方法、训练摘要生成模型的方法及装置有效
申请号: | 202310257447.6 | 申请日: | 2023-03-13 |
公开(公告)号: | CN115982343B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 袁正;苑洪意;李晨亮;谭传奇;黄松芳 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06N3/0455;G06N3/08;G06N3/084 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 袁媛 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 训练 模型 装置 | ||
1.一种摘要生成方法,其特征在于,所述方法包括:
获取待处理文本;
利用基于深度学习模型预先训练得到的摘要生成模型,针对所述待处理文本生成摘要文本;
其中所述摘要生成模型包括编码模块和解码模块;所述编码模块对所述待处理文本进行编码处理,得到所述待处理文本中各元素Token的特征表示,从所述待处理文本中提取K个关键文本单元,将所述K个关键文本单元中各Token的特征表示输出至所述解码模块;所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理,生成摘要文本,所述K为正整数;其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测;
所述摘要生成模型在所述训练的过程中是利用预设的总损失函数更新所述摘要生成模型的模型参数得到的。
2.根据权利要求1所述的方法,其特征在于,所述编码模块包括编码子网络、整合子网络和分类子网络;
所述编码子网络对所述待处理文本进行编码处理,得到所述待处理文本中各Token的特征表示;
所述整合子网络利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示;
所述分类子网络利用所述各文本单元的特征表示对各文本单元进行分类,得到各文本单元是否为关键文本单元的分类结果。
3.根据权利要求2所述的方法,其特征在于,利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括:
针对各文本单元分别执行:利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示,或者将文本单元所包含的起始符的特征表示作为该文本单元的特征表示。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述待处理文本为新闻文本,所述关键文本单元为关键句,所述摘要文本为所述新闻文本的新闻摘要;或者,
所述待处理文本为在线会议的会议记录,所述关键文本单元为关键句,所述摘要文本为所述会议记录的会议摘要。
5.一种摘要生成模型的训练方法,其特征在于,所述方法包括:
获取多个训练样本,所述训练样本包括文本样本以及所述文本样本的摘要样本;
利用所述多个训练样本训练基于深度学习模型的摘要生成模型,所述摘要生成模型包括编码模块和解码模块;所述编码模块对所述文本样本进行编码处理,得到所述文本样本中各Token的特征表示,从所述文本样本中提取K个关键文本单元,将所述K个关键文本单元中各Token的特征表示输出至所述解码模块;所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理,生成摘要文本,所述K为正整数;其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测;所述训练的目标包括:最小化所述解码模块生成的摘要文本与所述文本样本的摘要样本之间的差异;
其中,在所述训练的过程中利用预设的总损失函数更新所述摘要生成模型的模型参数,所述总损失函数由所述训练的目标得到。
6.根据权利要求5所述的方法,其特征在于,所述训练样本还包括:所述文本样本被标注的关键文本单元标签;
所述训练目标进一步包括:最小化所述编码模块提取的关键文本单元与对应关键文本单元标签之间的差异。
7.根据权利要求6所述的方法,其特征在于,所述获取多个训练样本包括:
获取文本样本以及所述文本样本的摘要样本;
分别确定所述文本样本中各文本单元与所述摘要样本的匹配程度,选择对应匹配程度满足预设匹配要求的文本单元标注关键文本单元标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310257447.6/1.html,转载请声明来源钻瓜专利网。