[发明专利]舆情指数的预测方法及装置、计算机设备和可读存储介质有效
申请号: | 201810909879.X | 申请日: | 2018-08-10 |
公开(公告)号: | CN109087205B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 邓江东;李磊;马维英 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06F40/289;G06F16/35 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 指数 预测 方法 装置 计算机 设备 可读 存储 介质 | ||
1.一种舆情指数的预测方法,其特征在于,所述预测方法包括:
获取股票舆情信息;
对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;
对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;
根据所述标注词序列和所述词性特征序列,得到词向量序列;
将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数;
所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数,包括:
设置奇数个舆情模型对金融资讯文章的打分结果投票,以决定该金融资讯文章的正负向舆情结果;
对发表金融资讯文章的信息来源、点赞数、浏览数或评论数数据进行处理,以此衡量所述金融资讯文章的重要程度;将所述资讯文章的重要程度与所述正负向舆情结果发送至舆情模型,得到可量化的股票舆情指数。
2.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤之后包括:
获取所述股票对应的历史舆情指数;
根据所述股票舆情指数和所述历史舆情指数绘制股票舆情K线图。
3.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:
获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;
根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;
根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。
4.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列的步骤包括:
对所述初始词序列进行词性标注,得到初始词性特征序列;
获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;
去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。
5.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述根据所述标注词序列和所述词性特征序列,得到词向量序列的步骤包括:
根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;
对所述标准词序列中的分词词语进行向量化,得到词向量序列。
6.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤包括:
对所述词性特征序列进行组合,得到句子层面特征;
对所述句子层面特征进行汇整,得到篇章层面特征;
将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。
7.根据权利要求1所述的舆情指数的预测方法,其特征在于,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:
对所述股票舆情信息进行分词,得到第一词序列;
对所述第一词序列进行序列标注,得到标注词序列;
对所述标注词序列进行离线处理,得到所述初始词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810909879.X/1.html,转载请声明来源钻瓜专利网。