[发明专利]一种新闻聚合方法及新闻聚合服务器在审
| 申请号: | 201611178531.5 | 申请日: | 2016-12-19 |
| 公开(公告)号: | CN106777143A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 李涛 | 申请(专利权)人: | 北京麒麟合盛网络技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京思睿峰知识产权代理有限公司11396 | 代理人: | 谢建云,赵爱军 |
| 地址: | 100000 北京市海淀区信息路2号(北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新闻 聚合 方法 服务器 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种新闻聚合方法及新闻聚合服务器。
背景技术
随着信息技术的发展和网络的全球化,在线新闻越来越受欢迎并成为人们日常生活中获取信息的一种重要途径,人们可以利用浏览器从一些知名的网站如新浪、网易、雅虎、CNN、AOL和MSNBC等获取新闻。随着移动互联网的发展,这些网站也发布了自己的移动应用,用户也可以通过这些移动应用获取相应网站的新闻。
当用户通过浏览器或使用移动应用来获取新闻时,由于提供新闻的网站和移动应用数量较多,包括的新闻内容也各种各样,用户需要逐个浏览网站或者逐个启动移动应用来获取新闻,则对于用户来说较为不便利。目前已经出现了新的移动应用,这类应用聚合各种来源的新闻、并最终形成一个统一的新闻列表以向用户展示,便于用户浏览新闻。
然而,由于新闻的来源不同,新闻的格式也会不同。例如一些新闻并不具有新闻简要描述部分,而还有一些新闻可能并没有配备对应的新闻图片。因此,当具有来自各个来源的新闻以提供新闻列表时,一方面可能出现在新闻正文页面中只有文字没有图片的情形,另一方面还会出现列表中的部分新闻具有配图而部分新闻缺少配图、以及部分新闻缺乏新闻简介等问题,导致整个新闻列表界面排版混乱,用户体验较差。
发明内容
为此,本发明提供一种新闻聚合的技术方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种新闻聚合方法,适于在新闻聚合服务器中执行,该方法包括如下步骤:从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面;如果抽取出的内容中存在图片URL,则直接从图片URL对应的图片中选出最优配图;如果抽取出的内容中不存在图片URL,则根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图;将新闻正文页面与最优配图组合起来形成配图新闻页面并进行存储;组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
可选地,在根据本发明的新闻聚合方法中,直接从图片URL对应的图片中选出最优配图包括:判断图片URL的数量是否大于1;如果图片URL的数量大于1,则获取图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于分辨率和排序位置选出最优配图;如果图片URL的数量等于1,则图片URL对应的图片即为最优配图。
可选地,在根据本发明的新闻聚合方法中,根据新闻来源名称调用搜索引擎进行图片搜索包括:根据新闻来源名称判断新闻数据的来源国家;根据来源国家获取其对应的搜索引擎;调用搜索引擎并以新闻标题为搜索词进行图片搜索。
可选地,在根据本发明的新闻聚合方法中,从搜索到的图片中选出最优配图包括:从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;若URL信息包括图片URL,则将图片ALT标签与新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合方法中,从搜索到的图片中选出最优配图还包括:若URL信息包括图片来源网页URL,则采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合方法中,N等于5。
可选地,在根据本发明的新闻聚合方法中,相似度阈值预设为30。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京麒麟合盛网络技术有限公司,未经北京麒麟合盛网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611178531.5/2.html,转载请声明来源钻瓜专利网。





