[发明专利]一种群聊金融信息的需求预测方法在审
| 申请号: | 202211028809.6 | 申请日: | 2022-08-25 |
| 公开(公告)号: | CN115422344A | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 王蕊;田刚;焦淑治 | 申请(专利权)人: | 山东科技大学 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332;G06F16/35;G06Q40/00;G06Q50/00;G06N3/04;G06N3/08 |
| 代理公司: | 安徽靖天专利代理事务所(普通合伙) 34275 | 代理人: | 杨宝洞 |
| 地址: | 266590 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 种群 金融 信息 需求预测 方法 | ||
为了获取群聊金融信息中具有较高商业价值的需求群聊金融信息,本发明公开了一种算法模型用来进行群聊金融信息的需求预测。利用BiLSTM(双向长短期记忆神经网络)和CRF(条件随机场)来提取群聊金融信息的特征词语将群聊金融信息进行初步处理,获取到特征词语后进行去重复操作得到训练GBDT(梯度提升决策树)算法模型的特征,根据群聊金融信息的特征词语的词频以及GBDT算法模型的特征,生成词频数字向量,得到的词频数字向量就是训练GBDT算法模型的训练数据,结合分类结果的标注训练GBDT算法模型,并利用训练完成的GBDT算法模型进行群聊金融信息的需求预测。通过进行实验可以得到该方法的需求预测的准确率达到了87.3%。
技术领域
本发明属于群聊金融信息预测领域,尤其涉及一种基于双向长短期记忆神经网络和条件随机场以及梯度提升决策树算法的群聊金融信息的需求预测方法。
背景技术
金融业是一个传统行业,同时在我国也是一个发展中的行业,与我们的生活息息相关。对于金融行业的发展近几年是突飞猛进,金融业的发展带动了巨大的商机,不难发现在当下的一些聊天软件之类的社交软件当中,例如微信群聊中,会有很多资金方或者需求方发出的一些金融信息,这些信息的一个特点就是文本较短,需求方以较少的字将自己的需求描述清楚;另一个特点就是这些群聊金融信息当中绝大部分都是资金方的供给信息然而需求方发出的信息很少,这部分很少数目的需求信息是一个很大的商机,挖掘出这部分需求信息能够给供给方提供客户,有重要的商业价值。当下推荐系统和预测系统应用在很多领域,如淘宝,今日头条等软件,利用推荐系统以及预测系统能够把用户可能购买的产品进行预测,从而推送给用户;能够给用户推送可能喜欢的文章、视频。这些推荐系统以及预测系统能够给商家带来很大的商业价值,如今的互联网日益成熟这些推荐系统以及预测系统将会有很大的发展前景。然而当下对于金融行业研究的各种预测算法或者方法却很少涉及到需求群聊金融信息的预测,大多数都是研究金融产品的价格趋势预测,金融市场趋势预测方法,金融时间序列预测。如果将预测算法能够应用在群聊金融信息的需求预测上,进一步挖掘出稀少的需求群聊金融信息,利用这一部分需求群聊金融信息创造较高的商业价值。
群聊金融信息数据预处理现在已有的方法是首先数据清洗,然后进行中文文本向量化。数据清洗先去掉文本数据中的符号,包括标点符号等得到纯中文文本,一般借助于正则表达式python编程语言的re模块中的compile函数,然后利用分词技术,把纯中文的群聊金融信息进行分词,这个分词大多数依赖python编程语言的一个分词工具“jieba”进行分词,分词之后再借助于停用词表把分词之后的数据进行停用词去除。数据清洗之后得到的是群聊金融信息的词语,然而这些词语无法直接让算法模型所识别,还需要进行中文文本的向量化。中文文本向量化是将我们已有的文本数据转化为数字向量,这个数字向量就是算法模型可以进行训练的数据,一条群聊金融信息对应着一个n维的数字向量,这个向量的维数取决于群聊金融信息的特征个数,其特征为群聊金融信息数据清洗后得到的词语,n维向量对应着n个特征,即代表某一条群聊金融信息在n个特征下的分别取值。现在已有的中文文本向量化的工具其中之一是onehot编码,onehot编码就是将我们分词后的所有的文本数据的词语去掉重复之后作为特征,对一条文本数据onehot编码时将本条文本已有的特征标为1,其余的特征标为0。然而直接使用onehot编码处理群聊金融信息形成数字向量,在群聊金融信息的需求预测当中会面临生成数字向量效率低、得到的数字向量质量差的问题,严重降低算法模型预测的准确率。当数据量很大的时候,比如2万条群聊金融信息,那么onehot编码将会产生很多特征,这就会导致向量的维数变得很大甚至是几千维的向量,然而其中一条数据能标为1特征很少,这就会加大训练模型的难度,影响算法模型的准确率;其次是有一些对于分类贡献很小的词语也作为了训练模型的特征进行算法模型的训练,比如“这里”、“存在”等词语对模型分类训练的贡献很小,将这些词语作为特征加入到模型的训练中会增加模型训练的时间开销,同时降低算法模型对需求群聊金融信息预测的准确率。在深度学习神经网络算法模型中,词嵌入也是作为将群聊金融信息转化为模型训练数据的一种方式,但是由于需求群聊金融信息稀少,利用词嵌入的方式得到的训练数据对于预测需求群聊金融信息效果很差。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211028809.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





