[发明专利]生成文本摘要的方法及装置有效
申请号: | 201910243139.1 | 申请日: | 2019-03-28 |
公开(公告)号: | CN110019768B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 迟耀明 | 申请(专利权)人: | 北京寓乐世界教育科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06N3/04 |
代理公司: | 北京众元弘策知识产权代理事务所(普通合伙) 11462 | 代理人: | 孙东风 |
地址: | 100041 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 文本 摘要 方法 装置 | ||
本申请公开了一种生成文本摘要的方法及装置。该方法包括将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。本申请解决了生成文本摘要时内容过于机械单一且可读性不强的技术问题。通过本申请生成的文本摘要,结合了抽取式和生成式两种处理方式进行,既保留了原文的含义,又不是机械复制,得到的文本摘要具有可读性。
技术领域
本申请涉及文本处理、自然语言处理领域,具体而言,涉及一种生成文本摘要的方法及装置。
背景技术
文本摘要,是指对包含较多内容的目标文本数据进行压缩处理,得到用户关注或感兴趣的文字内容的过程。
发明人发现,现有的文本摘要方法有的摘要内容过于机械,有的摘要内容可读性不强。进一步,不适合直接用于机器写作或对于关注的热点话题进行有效地文本压缩。
针对相关技术中生成文本摘要时内容过于机械单一且可读性不强的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种生成文本摘要的方法及装置,以解决生成文本摘要时内容过于机械单一且可读性不强的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种生成文本摘要的方法。
根据本申请的生成文本摘要的方法,包括:将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;将所述第一文本摘要作为预训练结果,输入预设局部特征提取网络,并通过所述预设局部特征提取网络生成第二文本摘要;以及将所述第二文本摘要作为生成所述待处理文本数据的文本摘要结果。
进一步地,所述预设局部特征提取网络包括如下建立步骤:将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
进一步地,所述特定数据集的获取方法包括如下步骤:选取预设领域中的文本数据作为原始文本;接收经过转写处理后的所述文本数据作为转写文本;将所述原始文本和所述转写文本分别作为所述局部特征提取网络的训练数据集。
进一步地,所述全局特征提取网络包括如下建立步骤:使用文本数据中的全文内容和文本标题作为训练数据集;使用文本专业词汇作为辅助训练集;根据所述训练数据集和辅助训练集,使用递归神经网络训练得到全局特征提取网络。
进一步地,抽取出所述待处理文本数据的第一文本摘要包括:在所述全局特征提取网络提取全局特征并作为关键词;结合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
为了实现上述目的,根据本申请的另一方面,提供了一种生成文本摘要的装置。
根据本申请的生成文本摘要的装置包括:抽取模块,用于将待处理文本数据输入预设全局特征提取网络,抽取出所述待处理文本数据的第一文本摘要;生成模块,用于将所述第一文本摘要作为预设局部特征提取网络的输入,通过所述预设局部特征提取网络生成第二文本摘要;以及结果模块,用于输出所述待处理文本数据的文本摘要生成结果。
进一步地,所述生成模块包括:预设局部特征提取网络建立模块,所述预设局部特征提取网络建立模块包括:搭建单元,用于将循环神经网络作为主干网络并采用自注意力机制,搭建多重注意力网络;第一训练单元,用于在所述多重注意力网络中采用特定数据集作为训练集,训练得到局部特征提取网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京寓乐世界教育科技有限公司,未经北京寓乐世界教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910243139.1/2.html,转载请声明来源钻瓜专利网。