[发明专利]一种财经博客文本分析方法有效
| 申请号: | 201911142631.6 | 申请日: | 2019-11-20 |
| 公开(公告)号: | CN110968696B | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 张国威;胡汤磊;杨杰;诸葛瑜亮 | 申请(专利权)人: | 国元证券股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 |
| 代理公司: | 合肥昊晟德专利代理事务所(普通合伙) 34153 | 代理人: | 王林 |
| 地址: | 230000*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 财经 博客 文本 分析 方法 | ||
1.一种财经博客文本分析方法,其特征在于,包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定;
所述步骤(1)中,包括以下步骤:
(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平;
对于一篇博文的N个词权重向量为:s=(s1,s2,…,sN),N个词的对应词得分λ=(λ1,λ2,…,λN),计算每篇博文的得分:
所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
2.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
3.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述涨跌词典中每个词语的得分β为:
博文得分值Score落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若ScoreScorelow,则博文看跌,若ScorelowScoreScorehigh,则博文看平,若ScoreScorehigh,则博文看涨。
4.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若UpdownUpdownlow,则股市跌,若UpdownlowUpdownUpdownhigh,则股市平,若UpdownUpdownhigh,则股市涨。
5.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,对博主根据看涨看跌和看平进行分类排序,公式如下:
分类标签为看涨的公式:
分类标签为看跌的公式:
分类标签为看平的公式:
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国元证券股份有限公司,未经国元证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911142631.6/1.html,转载请声明来源钻瓜专利网。





