[发明专利]摘要生成方法、训练摘要生成模型的方法及装置有效
申请号: | 202310257447.6 | 申请日: | 2023-03-13 |
公开(公告)号: | CN115982343B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 袁正;苑洪意;李晨亮;谭传奇;黄松芳 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06N3/0455;G06N3/08;G06N3/084 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 袁媛 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 训练 模型 装置 | ||
本申请实施例公开了一种摘要生成方法、训练摘要生成模型的方法及装置,涉及人工智能技术领域。其中摘要生成方法包括:获取待处理文本;利用基于深度学习模型预先训练得到的摘要生成模型,针对待处理文本生成摘要文本;其中摘要生成模型包括编码模块和解码模块;编码模块对待处理文本进行编码处理,得到待处理文本中各元素Token的特征表示,从待处理文本中提取K个关键文本单元,将K个关键文本单元中各Token的特征表示输出至解码模块;解码模块利用K个关键文本单元中各Token的特征表示进行解码处理,生成摘要文本,K为正整数。通过本申请能够提高针对长文本的摘要生成效果。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种摘要生成方法、训练摘要生成模型的方法及装置。
背景技术
利用人工智能技术将大量文本进行处理,产生简洁、精炼内容的过程就是摘要生成。人们可以通过阅读摘要来把握文本主要内容,节省时间,提高阅读效率。依赖于预训练模型的强大语言建模和生成能力,基于生成式语言模型的生成式摘要方法在多种摘要任务上取得了很好的效果,大幅度超过了抽取式的摘要方法。然而在很多场景下需要针对诸如新闻文本等长文本生成摘要,这些长文本篇幅较长且包含较多冗余的语言,目前的摘要生成方法对于这类长文本均效果较差。
发明内容
有鉴于此,本申请提供了一种摘要生成方法、训练摘要生成模型的方法及装置,以便于提高针对长文本的摘要生成效果。
本申请提供了如下方案:
第一方面,提供了一种摘要生成方法,所述方法包括:
获取待处理文本;
利用基于深度学习模型预先训练得到的摘要生成模型,针对所述待处理文本生成摘要文本;
其中所述摘要生成模型包括编码模块和解码模块;所述编码模块对所述待处理文本进行编码处理,得到所述待处理文本中各元素Token的特征表示,从所述待处理文本中提取K个关键文本单元,将所述K个关键文本单元中各Token的特征表示输出至所述解码模块;所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理,生成摘要文本,所述K为正整数。
根据本申请实施例中一可实现的方式,所述编码模块包括编码子网络、整合子网络和分类子网络;
所述编码子网络对所述待处理文本进行编码处理,得到所述待处理文本中各Token的特征表示;
所述整合子网络利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示;
所述分类子网络利用所述各文本单元的特征表示对各文本单元进行分类,得到各文本单元是否为关键文本单元的分类结果。
根据本申请实施例中一可实现的方式,利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括:
针对各文本单元分别执行:利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示,或者将文本单元所包含的起始符的特征表示作为该文本单元的特征表示。
根据本申请实施例中一可实现的方式,所述待处理文本为新闻文本,所述关键文本单元为关键句,所述摘要文本为所述新闻文本的新闻摘要;或者,
所述待处理文本为在线会议的会议记录,所述关键文本单元为关键句,所述摘要文本为所述会议记录的会议摘要。
第二方面,提供了一种摘要生成模型的训练方法,所述方法包括:
获取多个训练样本,所述训练样本包括文本样本以及所述文本样本的摘要样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310257447.6/2.html,转载请声明来源钻瓜专利网。