[发明专利]一种股票标准新闻库的构建方法及构建系统在审
申请号: | 201510511588.1 | 申请日: | 2015-08-19 |
公开(公告)号: | CN105069141A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | 金学波 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 股票 标准 新闻 构建 方法 系统 | ||
1.一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
步骤S1:获取股票新闻信息;
步骤S2:根据股票新闻信息构建股票标准库Z0;
步骤S3:对股票标准库中的文本进行预编译;
步骤S4:对已编译文本的特征进行标识,选取特征词;
步骤S5:计算特征词的信息增益,得到特征词的特征值;
步骤S6:利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
步骤S7:利用分类模型更新股票标准库;
步骤S8:重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
2.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中获取股票新闻信息。
3.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z0。
4.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词;
分词,采用Jieba分词系统,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
去除停用词,定义停用词,利用Jieba分词工具去除停用词。
5.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,采用TF-IDF加权法对所述步骤S4中文本特征进行标识;
TF-IDF加权法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的频率,IDF是判断词语在其他文档中出现次数的一种度量,用于判断词语的类别区分能力;
对于在某一特定语料中的词语ti来说,TF的计算方法为:
上式中ni,j是该词语在文档dj中的显现次数,而分母则是在文档dj中所有词语的显现次数之总和;
IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
其中|D|:股票标准库的文档总数;
|{j:ti∈dj}|:包含词语ti的文档数目(即ni,j≠0的文档数目),如果该词语在语料库中不存在,就会导致分母为零,因此使用1+|{j:ti∈dj}|作为特征选择方法;
TF-IDF加权法的计算方法如下:
TFIDFi,j=TFi,j*IDFi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510511588.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:专利分析系统
- 下一篇:一种基于XML的数字资源标识方法和装置