[发明专利]一种应用于股票新闻领域的态度倾向分析方法与系统在审

专利信息
申请号: 201710307190.5 申请日: 2017-05-02
公开(公告)号: CN107122351A 公开(公告)日: 2017-09-01
发明(设计)人: 李青峰;朱留锋;荣强;田淑宁;胡楚晗 申请(专利权)人: 灯塔财经信息有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 深圳市六加知识产权代理有限公司44372 代理人: 严泉玉
地址: 430000 湖北省武汉市东西*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 应用于 股票 新闻 领域 态度 倾向 分析 方法 系统
【说明书】:

技术领域

发明属于互联网金融技术领域,更具体地,涉及一种应用于股票新闻领域的态度倾向分析方法与系统。

背景技术

随着国内证券市场的快速发展,中国证券投资者超过1亿,90%的投资者为中小散户。散户为主的市场投资决策往往受到新闻舆情和机构研报的明显影响,因此对海量股票新闻的态度倾向性进行自动化分析对于辅助投资决策有重大意义。

目前股票领域传统的新闻态度标注都是通过人工进行的,效率低下,不足以覆盖资讯爆发时代日益增长的股票新闻数量。业界对于新闻的自动化态度分析已经有了一些尝试,大致分为两类。一类是使用一个正向和负向词的词典。句子中每个词有一个得分,积极情绪的词+1分,消极情绪词-1分,然后通过简单的将句中所有词的得分加起来的方式得到一个最终的情感总分。这个方法明显有各种不足,最严重的问题是其忽略了语境和上下文词汇。例如,在我们模型中一个"不好"的短语,由于"不"得到-1分,"好"得到+1分,最后可以得到0分情感。第二类是利用word2vec/doc2vec对词语或者直接对全文进行向量化标识,然后利用分类器进行训练得出态度倾向性。此类分类方法的局限性是比较适合分析文本之间的主题相似性,对于一个负面修饰词就可以逆转整句态度倾向性的场景的分析效果并不理想。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种应用于股票新闻领域的态度倾向分析方法与系统,其目的在于通过初始训练样本集训练一个多层LSTM(Long Short-Term Memory,长短期记忆网络)神经网络,得到训练后神经网络模型,利用训练后神经网络模型对待检测股票新闻标题进行态度倾向属性的判别,由此解决现有技术中人工标注效率低下和自动标注错误率较高的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种应用于股票新闻领域的态度倾向分析方法,包括:

根据股票新闻标题的态度倾向属性建立由股票新闻标题构成的初始训练样本集,所述态度倾向属性包括正面、中性以及负面,所述初始训练样本集中包括正面、中性以及负面三个初始训练样本子集;

对所述初始训练样本集中的各股票新闻标题进行预处理得到处理后训练样本集,所述预处理包括分词、数字化以及向量补齐,所述处理后训练样本集包括具有相同维度的用于表示各股票新闻标题的数字向量;

建立一个由输入层、中间层以及输出层构成的多层LSTM神经网络,利用处理后训练样本集对所述神经网络进行训练,得到训练后神经网络模型;

利用所述训练后神经网络模型对待检测股票新闻标题进行态度倾向属性的判别,得到所述待检测股票新闻标题的态度倾向属性。

本发明的一个实施例中,所述多层LSTM神经网络的输入层为特征表示层,用于将输入的用于表示各股票新闻标题的数字向量进一步表示为预设维度的特征向量;所述多层LSTM神经网络的中间层为双向LSTM层,由预设数量个LSTM单元组成,用于学习所述特征向量的语义特征,所述预设数量为所述预设维度的一半;所述多层LSTM神经网络的输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。

本发明的一个实施例中,所述预处理中的分词、数字化以及向量补齐,具体为:

将股票新闻标题进行分词,得到M个词语,所述M为该股票新闻标题中词语的数量;

将所述股票新闻标题的每个词语编码成一个整数,生成一个由整数编码组成的M维向量;

将所述M维向量通过右侧补零的方式生成具有相同长度的N维向量;所述N为预设值,且M<N。

本发明的一个实施例中,所述方法还包括错误样本的处理和神经网络模型的优化,具体为:

如果利用所述训练后神经网络模型对待检测股票新闻标题进行态度倾向属性的判别结果有误,则将判别有误的待检测股票新闻标题标记正确的态度倾向属性,并加入所述初始训练样本集中,重新训练所述LSTM神经网络。

本发明的一个实施例中,所述初始训练样本集中股票新闻标题的态度倾向属性通过人工进行标记。

本发明的一个实施例中,所述输入层生成的特征向量的维度为128,所述中间层中LSTM单元的数量为64。

本发明的一个实施例中,所述正面、中性以及负面三个初始训练样本子集中包含的股票新闻标题的数量的差值小于预设值。

按照本发明的另一方面,提供了一种应用于股票新闻领域的态度倾向分析系统,包括初始训练样本集生成模块、训练样本集预处理模块、神经网络模块训练模块以及态度倾向属性判别模块,其中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于灯塔财经信息有限公司,未经灯塔财经信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710307190.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top