[发明专利]一种适于事件归因的上市公司知识图谱构建方法及装置在审
申请号: | 201811205312.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109558492A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 郑子彬;梁宇轩 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时新闻 图谱构建 图谱 数据库 文本分类器 历史新闻 文本分类 新闻内容 新闻文本 基本面 抽取 跟踪 金融 | ||
本发明公开一种适于事件归因的上市公司知识图谱构建方法及装置,本装置用于实现本方法,本方法包括利用获取的上市公司的个股基本面信息及相关的个股历史新闻生成金融词典;利用获取的各上市公司相关的实时新闻生成实时新闻数据库;通过文本分类器对实时新闻进行文本分类;抽取新闻文本信息;采用图数据库Neo4J实现上市公司知识图谱构建实体知识图谱,根据特定新闻内容,对图谱上的节点进行跟踪,以构造出具有事件归因功能的上市公司知识图谱。
技术领域
本发明涉及知识图谱构建领域,特别涉及一种适于事件归因的上市公司知识图谱构建方法及装置。
背景技术
随着互联网的迅速发展,我们获得的财经资讯呈现出爆发式增长,各大财经证券门户网站也如雨后春笋般相继涌现。为了能够保证新闻的时效性以及丰富性,以便更好争夺用户资源,各大财经网站都相继提高财经新闻的发布密度与广度,新闻资讯膨胀爆发趋势愈加剧烈。然而目前中国绝大多数投资者都是散户,并没有充足的时间精力去浏览大量的新闻资讯,也没有足够的检索分析能力去追踪各个新闻的之间的关联程度。因此将各大上市公司相关新闻提炼出来,并构造出一个事件归因的图谱网络是很有必要,也是很有价值的。这将会更有利于一般的散户能够精确快速地识别到哪些上市公司或股票的涨跌可能受哪些新闻事件的影响,从而做出更有价值的投资判断。此外,这种基于事件归因的知识图谱还可以应用于量化交易。量化交易人员可以从图谱当中抽取相关联的新闻事件内容,结合相关的自然语言处理技术方法,形成一系列有价值的指标,从而更有利于指导量化投资。
目前的知识图谱构建主要涉及两个关键技术,一个是实体关系识别技术,另一个是知识推理技术。
实体关系识别是指将文章中具有特定信息含义的名词提取出来,将其作为特定的处理单元进行分析研究。最早在1998你年MUC会议中被提出来,其目的是通过填充关系模板槽的方式抽取文本中特定的关系。随着统计学方法的发展,从文本中识别实体间关系的问题逐步转化为分类问题,Zelenko[3]等人提出使用浅层句法分析树上最小公共子树来表达关系实例,计算两棵子树之间的核函数,通过训练(如利用SVM分离器)对实例进行划分。但由于核函数相似度计算过程匹配约束比较严格,特别是对于上市公司名称表示上存在较大的冗余性,导致基于核函数的方法召回率普遍较低。随着时间的推移,语料的增多,信息抽取逐渐转向了基于神经模型的研究,相关的语料被提出作为测试标准。基于神经网络模型显著的特点是不需要加入太多的特征,一般可用的特征有词向量、位置等。后来又有人提出利用基于联合抽取模型,这种模型可以同时抽取实体及其之间的关系。但是不管是神经模型的方法,还是基于联合抽取的方法,都需要大量的训练语料,而财经新闻当中并不具有足够的标签信息,不满足可利用大量语料进行模型训练这一条件,因此这种基于分类的方法不适合构建集成上市公司与相关新闻信息的知识图谱。
知识推理技术的一般思想是能通过图谱中已有的节点关系及节点信息,在某些节点发生变化的时候,能推断出与之相联系的节点的相应变化情况。具体的,相关人员提出了一种基于符号的推理方法,运用一种易处理概念语言,并开发了一些商用化的语义网络系统,以便使得语义网络同时具备形式化语义和高效推理。后来相关人员采用了多核多处理技术,及基于网络通信的分布式技术(如MapReduce计算框架、Peer-To-Peer网络框架等),以解决形式化语义上的效率问题。但是由于财经新闻数量呈爆发式增长,这些系统的推理效率还是难以满足日益增长的数据需要,难以很好地利用起来。此外,这里的知识图谱除了包含上市公司行情信息如股东、高管等基本信息之外,一些隐性的行情信息也需要包含在其中,如公司主营产品的内容,主营产品的上下游行业关系等。上游行业涉及到原材料和供应商,下游行业涉及到消费品和消费商等问题,此外,主营产品当前行业状况也是个关键的信息点,它涉及到行业竞争对手的关联性。因此仅用这种基于符号的推理方法无法深入地将对应的财经新闻信息加入到图谱中,影响图谱事件归因的追踪能力。
发明内容
本发明的主要目的是提出一种适于事件归因的上市公司知识图谱构建方法,旨在克服以上问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811205312.0/2.html,转载请声明来源钻瓜专利网。