[发明专利]微博大数据热点话题多维度智能提取系统在审
| 申请号: | 202210565183.6 | 申请日: | 2022-05-24 |
| 公开(公告)号: | CN114881041A | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 张艳;李扬 | 申请(专利权)人: | 张艳 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/289;G06F40/194;G06F16/35;G06F16/36 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100020 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 博大 数据 热点话题 多维 智能 提取 系统 | ||
本申请提出了基于短文本拓展和隐藏语义计算方法的文本建模方法,解决现有技术的文本建模方法进行微博话题提取,存在数据降噪、降维不足、语义丢失的问题;本申请结合微博特性提出了短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行了微博文本建模,在不丢失语义的情况下,降低了文本向量的维度;本申请提出了一种协同近似集合方法用于微博话题的提取,并进行了话题热度的打分,将时间数据特性纳入到文本相似度计算中,提出微博话题热度值计算的影响因素和具体方法,并生成了微博热点话题打分列表,提升微博话题的精准性、时效性,减少话题信息的遗失,实现微博大数据热点话题多维度智能准确提取。
技术领域
本申请涉及一种微博大数据热点话题提取系统,特别涉及一种微博大数据热点话题多维度智能提取系统,属于社交网络热点提取技术领域。
背景技术
随着IT技术的快速发展及移动互联网的广泛应用,互联网社交已逐渐并大规模进入人们的生活圈,深入影响到人们的资讯获取方式、社交及生活方式。微博因具备用户数据多、实时发布、开放性强、互动方便优点,逐渐成为人们用来获取和发布信息、分享状态和社交互动的工具,微博已基本成为网络舆论的主要来源之一。
随着微博用户量的剧增,其已成为个人、企业及政府重要的信息来源和发布信息的重要渠道。但面对实时更新、成千上万的用户同时发布的海量微博数据,如何通过有效手段从这些海量数据中及时高效地抓取符合需求的重要信息,确保相关信息准确、可靠、不遗漏重要信息、从而掌握网络舆论的发展态势,这是互联网时代中亟需解决的问题,也具有十分重要的经济和社会意义。
目前常用的信息抓取技术是针对网络新闻、博客内容较长、篇幅较多的网络文章,这些技术的原理是将这些文章所包含的数据通过一些关键词或高频词提取,并通过对这些关键词或者高频词进行计算,抓取出时下的网络热点,找到网络热点后,即可通过对网络热点的实时跟踪,及时掌握该网络热点的发展趋势。然而,通过微博发布数据具有信息短小、数据量巨大、互动性非常强、用户强参与、更新速度特别快特点,微博使用者均可在微博上以自己的表达方式实时传播新的话题,用户们通过搜索、评论和转发的方式均可能将任何用户发布的信息推上热点信息,成为热点话题。微博的这些特点决定了现有技术信息抓取手段难以适用于微博信息的抓取和分析之中,针对微博的信息提取亟需一种新的方式和技术手段来加以实现。
综上,现有技术的微博热点话题提取仍然存在问题,本申请的难点和待解决的问题集中在以下方面:
(1)现有技术虽然对文本表示模型、话题提取方法有不少研究,但传统的基于向量空间模型方法上的话题研究对象,往往是新闻媒体上的报道、评论文章、论坛博客长文本,微博存在与以往的新闻媒体、评论文章不同的特点,导致传统的话题提取方法在运用时存在较大的问题,微博信息的短文本特性,存在文本稀疏性,带来语义信息处理的困难,微博数据较短,而VSM方法在处理数据的过程中,若文本数据量越大,文本间的重复字词越多,越有利于文本相似度的衡量和提取;同时,微博中大量存在噪声数据,例如用户的账户信息、网址链接、表情符号,也会给文本相似度的计算带来困难,影响话题提取的效果,现有技术的热点提取方法运用在微博上会出现较大的偏差。
(2)微博信息量非常巨大,数据实时性很强,对于热点话题提取的速度、准确性都有较高的要求,要从海量的杂乱的微博信息中进行提取,同一话题可能不同的用户的表述差别较大,产生了海量的信息,再由用户间的转发和评论带来巨大的数据处理要求,这对于现有技术的话题提取时间性、算法速度都带来的较大困难,基于微博文本短,数据存在稀疏性,现有技术难以直接通过普通文本特征因子进行计算,无法解决基于向量空间模型的文本建模存在向量空间维度高、语意信息遗失难点,造成字词间的关联性强,无法获得字词间的隐含语义结构,对词和文本表述不准确,微博热点话题提取准确度很低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张艳,未经张艳许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210565183.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:档案处理方法和装置、电子设备及存储介质
- 下一篇:时钟电路、数据运算单元
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





