[发明专利]一种基于互联网金融信息的热点挖掘方法及系统在审

申请号：	201910373114.3	申请日：	2019-05-06
公开（公告）号：	CN110134847A	公开（公告）日：	2019-08-16
发明（设计）人：	黄仔琪;孙振起	申请（专利权）人：	北京科技大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/35;G06F16/335;G06F16/36;G06F16/383
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新闻簇金融信息热点话题特征向量挖掘抓取财经新闻数据挖掘互联网聚类排序追踪网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于互联网金融信息的热点挖掘方法及系统，能够有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程。所述方法包括：从网络上抓取财经新闻；提取每篇新闻的特征向量；根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。本发明涉及数据挖掘领域。

技术领域

本发明涉及数据挖掘领域，特别是指一种基于互联网金融信息的热点挖掘方法及系统。

背景技术

当今金融正处于信息化的时代，金融数据越来越丰富，如何有效分析金融数据，充分发挥金融数据的商业价值，正是金融业迫切需要解决的问题。方兴未艾的数据挖掘技术，正是用于解决大规模数据的处理和有效利用的问题。数据挖掘是指从大型数据库中提取人们感兴趣的知识，这些知识是隐含的、事先不知的、潜在有用的信息。这些被揭示出的有用的信息，可以为决策、市场策划和金融预测等方面提供依据。

网络信息资源是一种数字化资源，与非网络信息资源相比有其独特的特点：

1)数量庞大、增长迅速：互联网是一个集各种信息资源为一体的资源网，由于政府、机构、企业、个人随时都可以在网上发布信息，因此网络资源增长迅速，成为无所不有的庞杂信息源，并具有跨区域、分布广、多语种、高度共享的特点，因此金融领域的热点信息往往蕴含其中；

2)内容丰富、覆盖面广：网络信息资源几乎是无所不包，而且类型丰富多样，覆盖了不同学科、不同领域、不同地区、不同语言的信息，在形式上包括文本、图像、声音、软件、数据库等，看成多媒体、多语种、多类型的混合体，因此，网络信息资源给用户提供了较大的选择余地；

3)信息共享程度高、使用成本低：由于信息储存形式及数据结构具有通用性、开放性和标准化的特点，它在网络信息环境下，时间和空间范围得到了最大程度的延伸和扩展；

4)信息质量参差不齐，有序与无序并存：由于互联网的开放性和自由性，网络信息的发布缺少质量控制和管理机制，网络上的很多资源并没有经过审核，使得网络信息繁杂、混乱，质量参差不齐，给用户选择带来困难，所以基于网络信息的金融热点追踪可以有效对其降噪，帮助用户筛选有价值的金融热点信息。

发明内容

本发明要解决的技术问题是提供一种基于互联网金融信息的热点挖掘方法及系统，以解决现有技术所存在的网络信息资源质量参差不齐，无法确定有价值的金融热点信息的问题。

为解决上述技术问题，本发明实施例提供一种基于互联网金融信息的热点挖掘方法，包括：

从网络上抓取财经新闻；

提取每篇新闻的特征向量；

根据提取的特征向量进行聚类，得到多个新闻簇，其中，每个新闻簇对应一个热点；

对每个新闻簇中的所有标题进行重要程度排序，并获取重要程度最高的标题来描述相应新闻簇中的热点话题。