[发明专利]摘要生成方法、装置、电子设备及介质在审
申请号: | 202010244210.0 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111552800A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 赵焕丽;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/186;G06F40/289 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;孙芬 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 装置 电子设备 介质 | ||
本发明提供一种摘要生成方法、装置、电子设备及介质。该方法能够获取至少一个企业的至少一篇公告摘要并进行去重处理,对去重处理后的每篇公告摘要进行预处理,得到至少一个分词,将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板,融合至少一个摘要模板,得到摘要模板库,当接收到摘要生成指令时,从摘要生成指令中提取目标文本,确定目标文本所属的文本类型,及确定目标文本对应的企业所属的企业类型,确定同时与所述文本类型及所述企业类型匹配的目标摘要模板,从目标文本中提取所述目标摘要模板所需的信息,生成目标文本对应的摘要,通过分析已公布的公告摘要得到摘要模板,能够提高摘要生成的准确率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种摘要生成方法、装置、电子设备及介质。
背景技术
随着监管机构对企业的监督与指导力度的加大,要求企业定期向社会公告与证券交易相关的重大事件,并披露相关统计数据,如:募集说明书、上市公告书等报告,为方便第三方快速了解企业的运行状况,需要为这些报告提供摘要,由于每篇报告一般长达几十页,因此,人工处理时需要熟读每篇报告后才能提供摘要,影响了摘要生成的效率,为此,自动生成摘要的方式应运而生。
在现有的摘要生成方案中,基于深度学习的摘要生成方案是通过分析报告原文的具体大意,进而概括地生成报告的摘要,该方法由于需要分析原文的大意,因此需要大量标注好的训练样本,然而,由于标注好的训练样本不易获取,因此在没有足够多的训练样本的情况下,将会导致摘要自动生成的准确率低。传统的抽取式摘要生成方案从文本中抽取语句,这种方式虽然便捷,但是句子之间连贯性不强,可读性较差。
因此,如何构建准确且连贯性强的摘要生成方案,成了有待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种摘要生成方法、装置、电子设备及介质,不仅能够提高摘要生成的准确率,还能保证生成的摘要的连贯性。
一种摘要生成方法,所述方法包括:
获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;
对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;
将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;
融合所述至少一个摘要模板,得到摘要模板库;
当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;
确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;
从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;
从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。
根据本发明优选实施例,所述对所述至少一篇公告摘要进行去重处理包括:
根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;
从每篇公告摘要中抽取预设特征并建立特征索引;
根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;
通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;
判断所述相似摘要对中的预设特征是否相同;
当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010244210.0/2.html,转载请声明来源钻瓜专利网。