[发明专利]新闻摘要生成方法、装置、设备及计算机可读介质有效
申请号: | 201810694244.2 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033074B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 徐伟;刘家辰;肖欣延;吕雅娟;佘俏俏 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 摘要 生成 方法 装置 设备 计算机 可读 介质 | ||
本发明提出一种新闻摘要生成方法、装置、设备及计算机可读介质,其中,新闻摘要生成方法包括:获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;基于所述事件要素片段生成所述事件类新闻的摘要。本发明的技术方法基于事件新闻要素生成摘要,工作量可控,且能提高摘要的逻辑性。
技术领域
本发明涉及信息处理技术,尤其涉及一种新闻摘要生成方法、装置、设备及计算机可读介质。
背景技术
新闻摘要抽取是指对一篇或多篇新闻文章,抽取出简短、流畅、覆盖核心内容的文本。新闻摘要的通用技术包括基于句子的抽取法和以字符或者词为基础粒度的文本生成法。抽取法对于事件类新闻,其抽取的句子可能在逻辑上不连贯(即句子A与句子B可能是事件中不相邻的两个阶段的一部分,但在摘要中却连在了一起,导致逻辑出现问题),这对事件类新闻的摘要质量来说往往是致命的。然而受限于现有的机器学习技术,我们还较难对逻辑的连贯性做建模,因此短期内还不能找到一种通用的、解决逻辑可能不连贯的方法。文本生成法利用模型学习原文的语义等特征,之后按照自然语言生成方法逐字(或词)生成摘要结果,由于结果易出现逻辑混乱、连贯性差等问题,尚不能满足实际应用的需要。
发明内容
本发明实施例提供一种新闻摘要生成方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种新闻摘要生成方法,包括:
获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
基于所述事件要素片段生成所述事件类新闻的摘要。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述获取所述事件类新闻中的事件要素片段的步骤包括:
确定所述事件类新闻的有效正文;
从所述有效正文中抽取所述事件要素片段。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤,包括:
从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者
根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数,将具有最高报头句匹配分数的句子作为报头句。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
结合第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
将所述报头句作为所述摘要的首句;
当所述原因句中具有原因的触发词以及所述报头句没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面。
结合第一方面的第三种或第四种实现方式,本发明实施例在第一方面的第五种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810694244.2/2.html,转载请声明来源钻瓜专利网。