[发明专利]一种基于热点榜单的话题生成系统及方法在审
申请号: | 202210524363.X | 申请日: | 2022-05-14 |
公开(公告)号: | CN114860936A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 夏茂晋;朱旭琪;王欢;马云腾 | 申请(专利权)人: | 北京清博智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/216;G06F40/242;G06F40/247;G06F40/30;G06F16/951;G06K9/62;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 热点 话题 生成 系统 方法 | ||
本发明公开了一种基于热点榜单的话题生成系统及方法,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块,述数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块,检索过滤模块用于接收文本格式数据。本发明够综合各网络社交平台榜单数据,更加系统全面分析各话题文章信息,利用大数据分析和自然语言处理相关方法,采集不同社交媒体榜单信息,通过聚类分析海量文本数据得出相关话题的关键词,从而更加全面、科学、客观地描述热点事件。
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于热点榜单的话题生成系统及方法。
背景技术
由于不同平台发布的榜单信息量较少且分散,想要对其进行深层次的信息挖掘并不容易。比如百度热搜榜单只展现相关话题的简短描述,具体内容需要针对这一话题重新检索。再比如微信热榜上展示的是热文标题,可链接至某一热文的具体页面,但不会显示相关话题的其他文章。新闻搜索和综合搜索需要获得各媒体每日的热门标签进行数据建设,并通过标签分析热点事件脉络关系。因此我们对此做出改进,提出一种基于热点榜单的话题生成系统。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于热点榜单的话题生成系统及方法,能够综合各网络社交平台榜单数据,更加系统全面分析各话题文章信息,利用大数据分析和自然语言处理相关方法,采集不同社交媒体榜单信息,通过聚类分析海量文本数据得出相关话题的关键词,从而更加全面、科学、客观地描述热点事件。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于热点榜单的话题生成系统,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块;
所述数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块;
所述数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块;
所述检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;
所述分类抽取模块用于分析文章中的关键词,并分类抽取关键词作为备选;
所述结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。
一种基于热点榜单的话题生成方法:
A、数据采集模块从网络爬取从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;
B、数据处理模块读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;
C、分类抽取模块分析文章中的关键词,并分类抽取关键词作为备选,结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。
分类抽取模块生成方法包括以下步骤:
S1、按照先验概率P(d_m)选择一篇文档d_m;
S2、从Dirichlet分布α中取样生成文档d_m的主题分布ϑ_m;
S3、从主题的多项式分布ϑ_m中取样生成文档d_m第n个词的主题z_(m,n);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博智能科技有限公司,未经北京清博智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210524363.X/2.html,转载请声明来源钻瓜专利网。