[发明专利]一种适于事件归因的上市公司知识图谱构建方法及装置在审
申请号: | 201811205312.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109558492A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 郑子彬;梁宇轩 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时新闻 图谱构建 图谱 数据库 文本分类器 历史新闻 文本分类 新闻内容 新闻文本 基本面 抽取 跟踪 金融 | ||
1.一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:
S10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;
S20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;
S30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;
S40抽取文本信息:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;
S50构建实体知识图谱:利用Neo4J图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由S40信息抽取得到的实体新闻信息,生成上市公司知识图谱。
2.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S10之前还包括:
S01链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;
所述S10之后,所述S20之前还包括:
S02链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。
3.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述第一卷积神经网络模型分为四层:
第一层为embedding层,这一层将每个词映射到低维的向量表示;
第二层为卷积层,由不同窗口大小的Filter构成,同一个Filter参数共享,一个Filter为一类特征识别器,窗口大小就是识别的n-gram信息;
第三层为池化层,池化层操作为将卷积得到的列向量的最大值提取出来,从而得到与Filter数量一致的行向量;
第四层为全连接层,即在池化层后加一个softmax层,以将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签。
4.如权利要求3所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述embedding层将每个词映射到低维的向量表示的方法利用开源Word2vec工具包。
5.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S30中采用卷积神经网络对实时新闻进行文本分类之前还包括:
S301预处理阶段:对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。
6.如权利要求1所述的适于事件归因的上市公司知识图谱构建方法,其特征在于,所述S40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括:
S401实体标注:借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;
S402关系抽取:采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;
S403事件抽取:把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811205312.0/1.html,转载请声明来源钻瓜专利网。