[发明专利]面向投融资领域机构的观点挖掘方法、装置和电子设备在审
申请号: | 202011051181.2 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112347245A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 徐佳慧;裴乐琪;季书帆 | 申请(专利权)人: | 徐佳慧 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/04;G06Q40/06 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 孙志一 |
地址: | 224006 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 融资 领域 机构 观点 挖掘 方法 装置 电子设备 | ||
1.一种面向投融资领域机构的观点挖掘方法,其特征在于,包括:
S1:对第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符;
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;
S3:构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层;
S4:将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;
S5:将第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别;
S6:根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
2.根据权利要求1所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;
S2-3:对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
3.根据权利要求2所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S3包括:
S3-1:将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;
S3-2:通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;
S3-4:将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
4.根据权利要求3所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S4包括:
S4-1:对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数;
S4-3:根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐佳慧,未经徐佳慧许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011051181.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浆轴库自停保护装置
- 下一篇:视频会议处理方法、电子设备及存储介质