[发明专利]一种生成多文档摘要的方法及装置有效
申请号: | 201710245997.0 | 申请日: | 2017-04-14 |
公开(公告)号: | CN108733682B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 李丕绩;吕正东;李航 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 文档 摘要 方法 装置 | ||
本申请实施例公开了一种生成多文档摘要的方法及装置,涉及数据处理领域,解决了现有的自动多文档摘要技术生成摘要的性能较差的问题。具体方案为:将多篇文档划分为n个句子,生成输入词袋向量,对每个用输入词袋向量表示的句子进行无监督训练,得到每个句子的编码隐层向量和每个句子的潜在语义向量,采集m个潜在语义向量,根据m个潜在语义向量,得到m个解码隐层向量和m个输出词袋向量,进行更新,估计每个句子的重要度,获取每个句子的动词短语的重要度和冗余度,以及每个句子的名词短语的重要度和冗余度,根据所有名词短语的重要度和冗余度,以及所有动词短语的重要度和冗余度,生成多篇文档的摘要。本申请实施例用于生成多文档摘要的过程。
技术领域
本申请实施例涉及数据处理领域,尤其涉及一种生成多文档摘要的方法及装置。
背景技术
在信息爆炸时代中,人们面对海量信息,越来越迫切需要迅速、有效的信息处理手段。作为资讯的获取渠道之一,新闻阅读占据了人们生活中相当部分时间。而新闻的海量性、冗余性给人们的阅读带来很大不便。多文档摘要(Multi-Document Summarization,MDS)技术是指对于一个主题的多篇文档,自动生成有字数限制的简短的摘要,能够最大限度描述主题的主要内容,供用户阅读。从而提高信息阅读、资讯获取的效率。
从摘要产生方法来说可以分为以下三种。生成式摘要是一种能够模拟人类书写摘要的过程,系统自动生成摘要中的句子,由于该方法依赖自然语言理解和自然语言生成等技术,在理解和生成技术都不太理想的情况下,该方法的难度也较大。抽取式摘要是直接从原文中选择最重要的句子来组成摘要,并且有一定的机制保证抽取出来的句子在语义层面没有重复,确保重要性和覆盖度,然而,噪声较多。压缩式摘要,即在抽取式摘要的基础上,在句子完整性等约束下,将句子中的噪声或冗余信息删除,只保留重要的信息,组成摘要,然而,可能会导致句子不通顺。因此,现有的自动多文档摘要技术均不能很好地满足用户的需求,生成的摘要的性能较差。
发明内容
本申请实施例提供一种生成多文档摘要的方法及装置,解决了现有的自动多文档摘要技术生成摘要的性能较差的问题。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面,提供一种生成多文档摘要的方法,包括:
首先,将多篇文档划分为n个句子,对每个句子生成句子的输入词袋向量,n个句子的输入词袋向量组成输入词袋向量空间,然后,基于变分自编码(Variational Auto-Encoder,VAE)模型对每个用输入词袋向量表示的句子进行无监督训练,得到每个句子的编码隐层向量和每个句子的潜在语义向量,n个句子的编码隐层向量组成编码隐层向量空间,n个句子的潜在语义向量组成潜在语义向量空间,再从潜在语义向量空间中采集m个潜在语义向量,根据m个潜在语义向量,得到m个解码隐层向量和m个输出词袋向量,根据对齐机制更新m个解码隐层向量和m个输出词袋向量,根据输入词袋向量空间、编码隐层向量空间、潜在语义向量空间、m个潜在语义向量、更新后的m个解码隐层向量和更新后的m个输出词袋向量估计每个句子的重要度,最后,获取每个句子的动词短语和每个句子的名词短语,根据名词短语所在的句子的重要度获取该名词短语的重要度,根据动词短语所在的句子的重要度获取该动词短语的重要度,获取每个动词短语的冗余度和每个名词短语的冗余度,基于整数线性规划模型根据所有名词短语的重要度和冗余度,以及所有动词短语的重要度和冗余度,生成多篇文档的摘要,其中,n为大于等于1的整数,m为大于等于1,且小于n的整数。
本申请实施例提供的生成多文档摘要的方法,基于变分自编码模型对每个用输入词袋向量表示的句子进行无监督训练,生成句子的潜在语义向量,来提升句子的度量效果,同时,根据潜在语义向量得到解码隐层向量和输出词袋向量,再根据潜在语义向量、解码隐层向量和输出词袋向量分别重建各自的潜在语义向量空间、编码隐层向量空间和输入词袋向量空间来估计句子的重要度,即联合考虑多语义空间估计句子的重要度生成多篇文档的摘要。从而,通过变分自编码模型和联合多语义空间的句子重要性估计模型生成多篇文档的摘要,极大地提升了摘要的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710245997.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:一种基于数据摸排探索事件线索的方法及装置