[发明专利]一种基于层级多标签分类的金融事件检测方法、设备在审
申请号: | 202010689841.3 | 申请日: | 2020-07-17 |
公开(公告)号: | CN113010634A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 梁鑫;程大伟;杨芳洲;罗轶凤;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学;上海瞰点科技有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 陈艳娟 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层级 标签 分类 金融 事件 检测 方法 设备 | ||
本发明提供了一种基于层级多标签分类的金融事件检测方法,包括以下步骤:步骤1:设计层级标签体系;步骤2:金融语料的收集与处理;步骤3:构建训练集和测试集;步骤4:表征模型预训练;步骤5:表征模型微调训练;步骤6:文本特征提取并分类;步骤7:事件预测。将本发明的实验结果与主流的基准模型进行对比,可以发现本发明的实验结果比基准模型的结果都好,无论是否有递归正则的约束。从准确度出发,本发明的模型完全预测正确的为57.42%,比最好的基准模型HAN要高出4%。从模型对父子节点的整体依赖角度来看,在HMDScore指标上本发明的模型比最好的HAN‑HR要高出近7个百分点。在层级文本分类的常用评测指标中hF‑score中,本发明的模型比最好的HAN‑HR高出近8个百分点。
技术领域
本发明涉及自然语言处理技术领域,是一个基于层级多标签文本分类技术的对非结构性文本进行自动事件检测的方法、设备。
背景技术
股票交易是一种与投资和融资有关的重要金融活动,许多交易者和机构作为投资者参与股票交易市场,买卖股票以获取利润。上市公司的股价通常受与这些公司有关的几个关键驱动因素的支持,例如销量,季度/年度收入,毛利润率,净收入和每股收益等。这些关键驱动因素通常受到各种因素的影响。比如政治,政策和宏观经济等因素,以及这些因素的变化最终将导致支撑股价的主要驱动力发生变化。影响关键驱动因素的状态变化通常以非结构性文本(例如新闻文章和政策声明)的形式呈现,而因素的状态变化被视为最终会影响上市公司股价的事件。
因此如何准确精细地检测事件,是确保投资策略可靠有效的关键所在。在实际的应用场景中,往往以层级结构来表示和组织金融事件体系。面对具体的非结构性文本比如金融新闻或证券公司发布的研报,每条文本可能蕴含一个角度或多个角度,因此可以为该事件分配一个或多个事件标签,来表明去对应的层次结构和类别。因此可以将金融事件检测建模为层级多标签分类的问题。
目前业界对层级多标签文本分类任务提出了许多方法,包括基于规则的方法、机器学习方法以及近年来得到长足发展的深度学习方法。基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“足球”,“篮球”或“棒球”字样的文档都被赋予“运动”标签。这些方法需要对领域有深入的了解,并且系统难以维护。传统的机器学习分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力。常见的特征构造方法包括词袋法(BoW)及其在此基础上的延伸。常见的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、随机森林和GBDT/XGBOOST。除了基于机器学习的方法,基于深度学习的模型已应用于计算机视觉和自然语言处理中的各种任务,并且取得了不错的成绩。这些模型尝试以端到端的方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中的隐藏模式,而且便于从一个应用转移到另一个应用。为了解决传统文本表示高纬稀疏的问题,学者提出了分布式的空间向量模型比如Word2Vec,利用神经网络大幅降低表征纬度,提高表征质量。前馈神经网络是最常见的基于深度学习的分类方法,虽然结构简单,但是它们已经在许多文本分类基准上达到了很高的准确性。基于RNN的模型将文本视为单词序列,旨在捕获单词依赖性和文本结构以进行文本分类。与训练RNN识别跨时间的模式不同,基于CNN的方法通过卷积核捕获滑动空间内的词语序列学会识别跨空间的模式。除此以外还有基于注意力机制的文本分类算法。语言模型可以使用注意力向量来估计它与其他词的相关性,进而确定不同词语或短句在文本表征中所占的权重。以上这些技术都由其优势,并在部分任务上取得了不错的结果,但是在金融文本的层级多标签分类仍然有以下不足:
1.忽略层级标签体系的父子节点依赖关系。传统的层级多标签分类方法假定类别是独立的,忽略了类别层次结构之间存在的结构依赖性。
2.在基于RNN的方法中,传统的RNN单元无法有效地进行并行化计算,也无法对金融长文本进行有效的特征提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海瞰点科技有限责任公司,未经华东师范大学;上海瞰点科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010689841.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:近眼光场显示装置
- 下一篇:法律领域文本分析识别方法、系统、存储介质及终端