[发明专利]生成式文本摘要系统和方法在审

专利信息
申请号: 202110276136.5 申请日: 2021-03-15
公开(公告)号: CN113407709A 公开(公告)日: 2021-09-17
发明(设计)人: 宋凯强;王秉卿 申请(专利权)人: 罗伯特·博世有限公司
主分类号: G06F16/34 分类号: G06F16/34;G06N3/04;G06N3/08;G06N20/00
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 任一方;周学斌
地址: 德国斯*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成 文本 摘要 系统 方法
【说明书】:

生成式文本摘要系统和方法。公开了一种生成式自动文本摘要系统和方法,其可以采用搜索和重新排名策略来改进摘要任务的性能。该系统和方法可以采用变换器神经模型来辅助摘要任务。变换器神经模型可以被训练以学习人类抽象,并且然后可以可操作来生成抽象式摘要。在生成多个摘要假设的情况下,可以采用最佳优先搜索算法和重新排名算法来选择最佳候选摘要作为输出摘要的一部分。

技术领域

本公开涉及生成式文本摘要系统和方法。

背景技术

文本摘要策略倾向于采用机器学习算法来生成较大文本的简明摘要。例如,文本摘要可以用于为较长的新闻文章或可能长达数十至数百页的文本文章生成较短的段落摘要。所采用的机器学习需要筛选冗余或不重要的信息,并生成准确传达较大文本含义的摘要。

发明内容

公开了一种用于生成式文本摘要模型的系统和方法。该模型可以接收输入文本数据集,并为将被选择以包含在文本摘要中的一个或多个候选单词扩大搜索空间。该模型可以包括使用最佳优先搜索算法(best-first search algorithm)在搜索空间内对一个或多个候选单词进行排名。该模型还可以使用软界限单词奖励(soft-bound word-reward,SBWR)算法对将包括在文本摘要中的一个或多个候选单词进行重新排名。设想,当文本摘要超过预测长度阈值时,SBWR算法可以对一个或多个候选单词应用递减的奖励值。当文本摘要在预测长度阈值以下时,SBWR算法还可以将增加的奖励值应用于一个或多个候选单词。当文本摘要等于预测长度阈值时,SBWR算法可以进一步选择一个或多个候选单词。

该模型可以使用sigmoid函数进一步使递减的奖励值和增加的奖励值平滑。可以使用被训练来选择将被包括在文本摘要中的一个或多个候选单词的值来对递减的奖励值和增加的奖励值进行缩放。此外,当输入文本数据集超过预定义的长度阈值时,可以对一个或多个候选单词进行重新排名。

可以计算BP标准化,以对不满足预测长度阈值的一个或多个候选单词应用惩罚。可以通过将简短惩罚的对数值与长度标准化评分函数相加来计算BP标准化。此外,简短惩罚可以被设计成使得生成式文本摘要模型不从输入文本数据集产生短的翻译。简短惩罚还可以包括将简短惩罚减少到零的复制率值。

还可以使用包括编码器机器学习算法和解码器机器学习算法的变换器神经模型来训练生成式文本摘要模型。在训练序列期间,输入文本数据集可以被输入到编码器机器学习算法;并且目标摘要文本数据集可以被输入到解码器机器学习算法。变换器神经模型还可以使用一个或多个源标记来确定用于一个或多个目标摘要标记的概率值。

附图说明

图1是采用生成式文本摘要神经模型的示例性系统。

图2是采用生成式文本摘要神经模型的示例性流程图。

图3是用于实现最佳优先搜索策略的示例性源代码部分。

图4是用于训练生成式文本摘要神经模型的变换器神经模型的示例性实施例。

具体实施方式

本文描述了本公开的实施例。然而,将理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的;一些特征可以被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图图示和描述的各种特征可以与一个或多个其他图中图示的特征相组合,以产生没有明确图示或描述的实施例。图示特征的组合为典型应用提供了代表性实施例。然而,与本公开的教导一致的特征的各种组合和修改对于特定的应用或实现可以是期望的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110276136.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top