[发明专利]评价股票评论可靠性的方法和装置在审
申请号: | 201810942615.4 | 申请日: | 2018-08-17 |
公开(公告)号: | CN109035025A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王浩;张晨;庞旭林;杜长营;杨康 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06K9/62;G06N99/00 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;何立春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 股票 机器学习模型 评论数据 方法和装置 评论 分类模型 序列集 径向基核函数 可靠性预测 支持向量机 市场走势 特征向量 提取特征 准确度 预测 向量 输出 帮助 | ||
1.一种评价股票评论可靠性的方法,其中,该方法包括:
基于股票评论数据集和股价序列集提取特征向量;
利用所提取的特征向量训练基于径向基核函数的支持向量机SVM模型;
利用股价序列集训练用于预测股价的机器学习模型;
集成所述SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型;
将待评价的股票评论数据输入到所述用于评价股票评论可靠性的分类模型,得到输出的评价结果。
2.如权利要求1所述的方法,其中,所述基于股票评论数据集和股价序列集提取特征向量包括:
基于所述股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:
该条股票评论数据的看涨或看跌的观点极性信息;
在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;
从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第二预设长度时间内的股票s的价格序列;
所述用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;
从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio中的一种或多种;
其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。
3.如权利要求1所述的方法,其中,所述利用所提取的关键特征训练基于径向基核函数的SVM模型包括:
令径向基核函数为:
SVM模型为:
其中,x1和x2是两个特征向量,γ是径向基核函数的参数;函数φ(·)将原始特征映射到高维内核空间,以便进行最优决策超平面的计算;
通过优化如下的目标函数来计算SVM模型的参数ω和b:
s.t.yi(ωTφ(ci)+b)≥1-ξi,
ξi≥0,i=1,…,N,
其中,C是训练样本中噪声与简化超平面分类的权衡参数,yi是股票评论观点是否正确的标签。
4.如权利要求1所述的方法,其中,所述利用股价序列集训练用于预测股价的机器学习模型包括:
确定作为模型训练集和测试集的股票价格序列数据,其中训练集或测试集中的每一条数据包括:用于输入模型的连续若干天的股票收盘价,以及作为标签的后一天的股票收盘价;
基于训练集训练ARMA模型,并基于验证集验证模型的预测效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810942615.4/1.html,转载请声明来源钻瓜专利网。