[发明专利]金融公告的摘要提取方法与摘要提取终端在审
申请号: | 202110169301.7 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112784585A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 李明玉 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F40/289 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 公告 摘要 提取 方法 终端 | ||
本申请涉及一种金融公告的摘要提取方法与摘要提取终端,通过对原始金融公告的公告文本进行核心元素标注,标注量小且可以实现自动化标注,无需人工标注。通过对公告文本进行粗召回处理,实现了压缩文本的目的,满足了中文预训练模型对输入字符数量的限制。通过对中文预训练模型进行预训练,输出的每个句子的语义向量进行提取,不但可以建立该核心公告文本中每一个句子和其他句子的关联逻辑,从而通过训练后的中文预训练模型实现句子间的高层语义表示的获取,而且可以使得训练后的中文预训练模型可以判断句子是否应该被抽取到最终的摘要文本中,实现了对高优先级文本内容的自动提取。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种金融公告的摘要提取方法与摘要提取终端。
背景技术
上市公司每天发布大量的金融公告,这些公告一般金融篇幅冗长,内容繁多。从这些公告中自动提取摘要,可以得到精准度较高,且可读性较高的公告摘要文档,为金融市场投资者节约大量的公告阅读时间,从而辅助投资者做出更快、更好的投资判断。
通常自然语言处理中的文本摘要任务是指对长文本通过抽取、生成或者压缩的方式,形成一段较小篇幅的语句段落来概括原始文本的主题大意。与通常的自然语言处理文本摘要任务不同,金融公告的摘要需要根据公告的类型返回包含不同侧重点的信息形成摘要。由于公告摘要任务相比于普通文本摘要任务的特殊性以及金融领域算法任务的高准召率的要求,目前,传统金融公告的摘要提取方法有很多种,但实质上均为从原始金融公告中提取重要段落或重要句子的方法。最常见的方法之一,就是运用基于深度学习模型的句子分类算法的摘要提取方法。
然而,这种传统的摘要提取方法具有一个很大的问题,标注成本较高且准召率不高。基于深度学习模型的句子分类算法为了达到较高的准召率往往需要很深的复杂网络。神经网络结构的设计对模型的准招率表现会起到决定性的作用,但模型越复杂,所需参数就越多,网络达到收敛状态时需要的训练数据也会越多,这大大提高了标注成本。标注是依靠高素质人员人工进行标注的,在金融领域,标注人员需要很强的业务、专业知识背景,大批量的公告数据标注实施尤为困难。且标注数量虽然很大,但是这种提取方法的准召率却往往不高,不是很理想。
发明内容
基于此,有必要针对传统金融公告的摘要提取方法标注成本较高且准召率不高的问题,提供一种金融公告的摘要提取方法与摘要提取终端。
本申请提供一种金融公告的摘要提取方法,所述方法包括:
获取多个原始金融公告;对每一个原始金融公告进行预处理,将每一个原始金融公告转化为公告文本;
对每一个公告文本进行核心元素的标注,生成多个核心元素标签;
对每一个公告文本进行粗召回处理,以压缩公告文本的内容,生成核心公告文本;
对每一个核心公告文本进行分句处理,在每一个句子中插入特殊标识符;
将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,以建立该核心公告文本中每一个句子和其他句子的关联逻辑,以及建立核心元素所在句子的识别逻辑,并将关联逻辑和识别逻辑赋予所述特殊标识符;
获取待提取公告,将待提取公告进行所述预处理,生成待提取公告的公告文本,对所述待提取公告的公告文本进行所述核心元素的标注和粗召回处理,生成待提取公告的核心公告文本,对待提取公告的核心公告文本进行分句处理,并在每一个句子中插入特殊标识符;
将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量;
从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,提取分类得分大于或分类得分阈值的语义向量对应的句子组成摘要文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169301.7/2.html,转载请声明来源钻瓜专利网。