[发明专利]一种基于深度学习的上市公司公告分类及摘要生成方法在审
申请号: | 201710255476.3 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107403375A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 段清华;丁海星;郑锦光;王丛;张梦迪;鲍捷;马新磊 | 申请(专利权)人: | 北京文因互联科技有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06F17/30 |
代理公司: | 北京万科园知识产权代理有限责任公司11230 | 代理人: | 杜澄心,张亚军 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 上市 公司公告 分类 摘要 生成 方法 | ||
技术领域
本发明涉及一种上市公司公告分类及摘要生成方法。
背景技术
上市公司公告:在证券市场中,上市公司企业需要根据相关监管机构的信息披露制度,定期向社会公开或公告其财务变化、经营状况等与证券交易有关的重大公司事件,如招股说明书,上市公告书,半年度报告,季度报告,临时报告等。在我国,沪市与深市每日产生的A股主板公告约有2000多份,新三板每日产生的公告约有2000多份,涵盖三板与主板所有上市公司企业经营变动信息。对于大部分投资者而言,海量的公告书内容很难完全阅读分析。同时,由于众多公告可以根据其发布内容进行类别划分,而当前并无实际有效的公告分类标准去依据实行。
因此,对于投资者来说,依据目前的上市公司公告,阅读分析判断具体事项的效率很低。
现有的文本摘要生成:文本摘要是一种通过计算文档中段落句子的句法特征、语义特征以及统计特征,自动提取关键信息,生成摘要的技术。常见的文本摘要技术包括基于词频打分的特征统计方法,如TF*IDF。以及基于传统机器学习的方法,使用分类模型对文档中的句子进行有监督分类,找出权重比较高,可以作为摘要的句子,如基于朴素贝叶斯方法的分类模型、基于聚类的分类模型,以及基于LDA的分类模型。由于有监督分类方法需要大量的标注数据作为训练集,而目前的上市公司企业公告内容繁杂,不同的人判断标准无法统一,因此基于机器学习的文本摘要方法仍需要不断探索提高。
深度学习是机器学习的一个分支,采用深度神经网络等框架,实际应用中,在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域获取了极好的效果。LSTM网络(Long-Short Term Memory Network)是一种经过改良处理的RNN(Recurrent Neural Network)深度神经网络学习方法,在1997年被Hochreiter&Schmidhuber首次提出,目前已经在语音识别,机器翻译,和自然语言处理领域取得了多项突破进展。LSTM网络有效的解决了RNN网络中可能会有的梯度消失、梯度爆炸导致训练收敛困难的缺点,尤其在针对序列数据(Sequence)时,由于LSTM具有记忆性(Memory),对上下文的理解要优于传统机器学习算法,因此在分类效果方面有极大的提高。序列数据是一种连续的、对上下文依赖比较强的数据文本序列,如语音信号、视频信号、时间序列、文本序列等。
发明内容
本发明的目的是提供一种基于深度学习的上市公司公告分类及摘要生成方法,针对证券市场中,上市公司企业根据监管机构要求发布的各类公告文档,解决针对每天产生的大量公告信息,自动对公告进行分类,并根据分类情况自动提取关键重要信息,生成摘要内容等技术问题。
为了实现上述发明目的,本发明所采用的方法如下:
步骤1、获取公告原文数据,提取文字、图片、表格信息,建立结构化文档。包括公告获取、公告转换、结构化处理、内容提取流程步骤。
步骤2、基于公告领域行业知识,根据各种公司经营变动事件关键字区别,建立不同公告分类规则词库,统计判断公告类别,包括关键字统计、词库建立、公告分类;
步骤3、针对不同分类的公告,提取公告文档内容,结合相应分类关键字规则词库,训练公告内容分类模型,自动生成文档摘要内容,包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。
所述提取流程步骤:
步骤1-1,获取公告数据,选择可公开获取的公告进行分类及摘要处理根据证券市场信息披露的情况,
步骤1-2,判断是否结构化数据,,根据获取到的数据进行选择判断,对于不同类型的数据,做对应的分析处理;
步骤1-3,数据清洗,,当获取到的数据为结构化数据时,根据后续模型的处理需要,对该类数据进行特定内容的重新提取分类处理,并与原始公告建立关联,存储于统一的公告数据库中;
步骤1-4,文本转换,,对于未经结构化处理的原始公告文档,需要对文档进行有效内容提取;
步骤1-5,结构化处理,对于步骤1-1至步骤1-4提取出的有效文字段落、图表、图,结合文档中的原数据信息,依据事先设计好的数据结构,对该类文本进行统一处理,生成算法程序可识别处理的结构化数据。
所述建立规则词库与公告分类流程:
步骤2-1,公告领域关键词,通过分析证券市场投资人员关注点,选择涵盖公告重点的词组作为某领域公告关键区分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文因互联科技有限公司,未经北京文因互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710255476.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:一种数据信息的处理方法及装置