[发明专利]一种基于互联网金融信息的热点挖掘方法及系统在审
申请号: | 201910373114.3 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110134847A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 黄仔琪;孙振起 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F16/335;G06F16/36;G06F16/383 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻簇 金融信息 热点话题 特征向量 挖掘 抓取 财经新闻 数据挖掘 互联网 聚类 排序 追踪 网络 | ||
本发明提供一种基于互联网金融信息的热点挖掘方法及系统,能够有助于投资者根据挖掘出的热点话题追踪市场热点的发展过程。所述方法包括:从网络上抓取财经新闻;提取每篇新闻的特征向量;根据提取的特征向量进行聚类,得到多个新闻簇,其中,每个新闻簇对应一个热点;对每个新闻簇中的所有标题进行重要程度排序,并获取重要程度最高的标题来描述相应新闻簇中的热点话题。本发明涉及数据挖掘领域。
技术领域
本发明涉及数据挖掘领域,特别是指一种基于互联网金融信息的热点挖掘方法及系统。
背景技术
当今金融正处于信息化的时代,金融数据越来越丰富,如何有效分析金融数据,充分发挥金融数据的商业价值,正是金融业迫切需要解决的问题。方兴未艾的数据挖掘技术,正是用于解决大规模数据的处理和有效利用的问题。数据挖掘是指从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的、潜在有用的信息。这些被揭示出的有用的信息,可以为决策、市场策划和金融预测等方面提供依据。
网络信息资源是一种数字化资源,与非网络信息资源相比有其独特的特点:
1)数量庞大、增长迅速:互联网是一个集各种信息资源为一体的资源网,由于政府、机构、企业、个人随时都可以在网上发布信息,因此网络资源增长迅速,成为无所不有的庞杂信息源,并具有跨区域、分布广、多语种、高度共享的特点,因此金融领域的热点信息往往蕴含其中;
2)内容丰富、覆盖面广:网络信息资源几乎是无所不包,而且类型丰富多样,覆盖了不同学科、不同领域、不同地区、不同语言的信息,在形式上包括文本、图像、声音、软件、数据库等,看成多媒体、多语种、多类型的混合体,因此,网络信息资源给用户提供了较大的选择余地;
3)信息共享程度高、使用成本低:由于信息储存形式及数据结构具有通用性、开放性和标准化的特点,它在网络信息环境下,时间和空间范围得到了最大程度的延伸和扩展;
4)信息质量参差不齐,有序与无序并存:由于互联网的开放性和自由性,网络信息的发布缺少质量控制和管理机制,网络上的很多资源并没有经过审核,使得网络信息繁杂、混乱,质量参差不齐,给用户选择带来困难,所以基于网络信息的金融热点追踪可以有效对其降噪,帮助用户筛选有价值的金融热点信息。
发明内容
本发明要解决的技术问题是提供一种基于互联网金融信息的热点挖掘方法及系统,以解决现有技术所存在的网络信息资源质量参差不齐,无法确定有价值的金融热点信息的问题。
为解决上述技术问题,本发明实施例提供一种基于互联网金融信息的热点挖掘方法,包括:
从网络上抓取财经新闻;
提取每篇新闻的特征向量;
根据提取的特征向量进行聚类,得到多个新闻簇,其中,每个新闻簇对应一个热点;
对每个新闻簇中的所有标题进行重要程度排序,并获取重要程度最高的标题来描述相应新闻簇中的热点话题。
进一步地,所述从网络上抓取财经新闻包括:
通过聚焦网络爬虫,从网络上抓取与预先定义的财经主题相关的网络页面。
进一步地,在提取每篇新闻的特征向量之前,所述方法还包括:
对每篇新闻内容使用结巴分词法进行分词和词性筛选。
进一步地,所述对每篇新闻内容使用结巴分词法进行分词和词性筛选包括:
对新闻内容进行清洗,其中,清洗包括:去重、时间段过滤;
基于预先构建的用户词词典,对清洗后的新闻内容文本进行结巴分词并进行词性标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910373114.3/2.html,转载请声明来源钻瓜专利网。