[发明专利]文章聚合方法和装置、介质和计算设备有效
申请号: | 201910787934.7 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110489558B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 林靖豪;陈起进;任文静;潘照明 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 100084 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 聚合 方法 装置 介质 计算 设备 | ||
本发明的实施方式提供了一种由计算设备执行的文章聚合方法。该方法包括:接收多个文章,并提取多个文章各自包含的特征词;基于特征词得到多个文章集合,其中,每个文章集合包含一个或多个文章;对文章集合进行第一次聚类,得到多个一级聚簇;对每个一级聚簇内包含的文章进行第二次聚类,得到每个一级聚簇包含的二级聚簇;以及将一级聚簇和二级聚簇作为文章的聚合结果,输出聚合结果。本发明的方法能够利用计算设备快速准确地对文章进行聚合,从而显著地降低了人力成本和时间成本,提高了实时性、全面性和准确率,为用户带来了更好的体验。此外,本发明的实施方式提供了一种文章聚合装置、一种介质和一种计算设备。
技术领域
本发明的实施方式涉及计算机领域,更具体地,本发明的实施方式涉及一种文章聚合方法、一种文章聚合装置、一种介质和一种计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着计算机和网络的快速发展,信息的更迭速度越来却快,新闻文章是信息时代传播信息必不可少的重要手段,网络上每天生产的新闻文章数量较多,为了有针对性、并且不重复地给用户推送新闻文章,需要对新闻文章进行聚合,以根据文章聚合结果向用户推送新闻文章。
目前,已经出现一些对文章进行聚合的方式,但是,相关的文章聚合方式存在诸多问题,例如,相关技术中利用人工编辑对文章标记标签然后根据标签进行聚合整理,或者通过用户或媒体反馈来提取文章的关键属性然后根据关键属性进行聚合,但是这种依赖人工的方式存在时效性低、覆盖率有限的问题。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
但是,由于现有技术中存在文章聚合方式的时效性低的问题。
因此在现有技术中,文章聚合分类是非常令人烦恼的过程。
为此,非常需要一种改进的文章聚合方法,以降低文章聚合所需的计算时间,提高实时性和准确度,为用户带来了更好的体验。
在本上下文中,本发明的实施方式期望提供一种文章聚合方法、一种文章聚合装置、一种介质和一种计算设备。
在本发明实施方式的第一方面中,提供了一种由计算设备执行的文章聚合方法,包括:接收多个文章,并提取所述多个文章各自包含的特征词;基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个所述文章;对所述文章集合进行第一次聚类,得到多个一级聚簇;对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果。
在本发明的一个实施例中,所述基于所述特征词得到多个文章集合包括:基于所述特征词得到每个文章包含的多个特征组合,每个所述特征组合包含预定数量的特征词;基于所述多个特征组合得到多个文章集合,其中,将包含同一特征组合的一个或多个文章进行组合形成一个文章集合。
在本发明的另一实施例中,所述对所述文章集合进行第一次聚类,得到多个一级聚簇包括:确定每个文章集合与其余各个文章集合之间的共有文章的数量;将所述文章集合作为节点,基于所述共有文章的数量确定节点间的边的权值;以及基于所述节点和所述边的权值得到多个一级聚簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910787934.7/2.html,转载请声明来源钻瓜专利网。