[发明专利]一种基于NLP的上市公司财务快讯自动生成方法及系统在审
申请号: | 202110253640.3 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112966097A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 邱震宇;王玲;孔亚洲;朱德伟;张弛 | 申请(专利权)人: | 华泰证券股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/186;G06F40/205;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 邵斌 |
地址: | 210019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nlp 上市 公司财务 快讯 自动 生成 方法 系统 | ||
本发明公开了自然语言处理技术领域的一种基于NLP的上市公司财务快讯自动生成方法及系统,包括:将公告文件进行结构化处理,得到文本解析信息;从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。具有生成的财务快讯文本样式丰富,维护使用简单,文本匹配效果好等特点。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于NLP的上市公司财务快讯自动生成方法及系统。
背景技术
通过研究,我们发现财务快讯报告通常包含基础财务指标描述、主营业务相关情况描述和异动财务与经营指标及其原因等基础元素。这些财务基础元素均可利用自然语言处理技术从上市公司的公告文件中自动解析出来。另一方面,这类财务快讯报告大多属于客观陈述,一般不涉及复杂的深度观点剖析。
财务快讯自动生成的方法主要有两种,一种是基于规则模板;另一种是基于深度神经网络的端到端的文本生成。基于规则模板的方法存在的缺陷:生成文本样式过于单一死板,多样性较差;规则模板的维护和扩展工作需要较高的人力成本和领域知识。基于深度神经网络的端到端文本生成方法存在的缺陷:训练一个可用的神经网络需要一定量的训练语料,然而在实际业务场景中,很难去构建一个数据量充分的训练集合;金融领域对于金融数字、术语的生成质量要求较高,直接使用seq2seq做文本生成,容易产生错误的数字描述,这种错误往往影响很大。
发明内容
为解决现有技术中的不足,本发明提供一种基于NLP的上市公司财务快讯自动生成方法及系统,生成的财务快讯文本样式丰富,维护使用简单,文本匹配效果好等特点。
为达到上述目的,本发明所采用的技术方案是:
第一方面,提供一种财务快讯自动生成方法,包括:将公告文件进行结构化处理,得到文本解析信息;从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
进一步地,所述将公告文件进行结构化处理,得到文本解析信息,包括:从指定数据源上实时获取PDF格式的公告文件;对获取的公告文件进行粗粒度解析,得到第一数据集;对第一数据进行细粒度解析和数据抽取,得到第二数据集;对第二数据进行格式化处理,得到第三数据集;基于第三数据集和公告文件的目录信息,将单一指标数据进行关联,最终获得文本解析信息。
进一步地,所述关键财务信息包括基本财务指标数据、主营业务指标数据和指标异常变动数据;所述基本财务指标数据和主营业务指标数据直接从文本解析信息中索引获取;所述指标异常变动数据包括异动财务指标数据和对应的异动原因;所述指标异常变动数据的获取方法为:先基于预先设定的阈值确定异动财务指标数据,并将异动财务指标数据描述为一个短文本语句;然后采用基于BERT模型构建的二分类问题模型,将异动财务指标数据与异动原因进行文本匹配,获得包含异动财务指标数据及对应的异动原因的指标异常变动数据。
进一步地,所述改良后的seq2seq模型,包括内容选择模块和内容编排模块,所述内容选择模块用于让对不同财务指标属性内容的重要程度进行学习,所述内容编排模块用于根据内容选择模块的学习结果,对财务指标进行筛选和排序。
进一步地,所述改良后的seq2seq模型,还包括数据预处理模块,用于对关键财务信息进行预处理,即将关键财务信息的结构化数据转化为三元组形式,以输入到编码器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华泰证券股份有限公司,未经华泰证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253640.3/2.html,转载请声明来源钻瓜专利网。