[发明专利]一种基于新闻语料的行情预测方法有效
| 申请号: | 201810488261.0 | 申请日: | 2018-05-21 |
| 公开(公告)号: | CN108776652B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 曹一新;徐照晔;吴小川 | 申请(专利权)人: | 众安信息技术服务有限公司;百保(上海)科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/30;G06F40/151 |
| 代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 谢敏楠 |
| 地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 新闻 语料 行情 预测 方法 | ||
1.一种基于新闻语料的行情预测方法,其特征在于,包括以下步骤:
S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;
S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量,所述第一特征张量的构建方法包括:
获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;
构建所述第一特征张量为其中D1=[d11,d12,...,d1i]表示新闻主体向量,表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度;
所述关键词词典包括若干组“关键词+从属词汇”,使得所述第一特征张量中的每一个元素d都能在所述关键词词典中找到唯一的一组对应“关键词+从属词汇”,所述第二特征张量的构建方法包括:
从预设的关键词词典中获取关键词及对应的从属词汇,并对向量中的每一个元素d分别判断其是否含有对应关键词的从属词汇中的任意一个;若是则对该元素赋值1,否则对该元素赋值0;得到一个由0、1构成的二维特征张量;
S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;
S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。
2.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。
3.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。
4.如权利要求3所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的预处理步骤按顺序包括:
S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;
S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;
S13:对所述新闻语料信息进行分词;
S14:依据所述干扰词词典中的词语排除干扰词。
5.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S11之前或之后还包括:
S10:去除空白及干扰字符。
6.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S14之前或之后还包括:
S15:去除停止词。
7.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述第一特征张量的构建方法中还包括:
建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司;百保(上海)科技有限公司,未经众安信息技术服务有限公司;百保(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810488261.0/1.html,转载请声明来源钻瓜专利网。





