[发明专利]一种新闻聚合方法及新闻聚合服务器在审
| 申请号: | 201611178531.5 | 申请日: | 2016-12-19 |
| 公开(公告)号: | CN106777143A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 李涛 | 申请(专利权)人: | 北京麒麟合盛网络技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京思睿峰知识产权代理有限公司11396 | 代理人: | 谢建云,赵爱军 |
| 地址: | 100000 北京市海淀区信息路2号(北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新闻 聚合 方法 服务器 | ||
1.一种新闻聚合方法,适于在新闻聚合服务器中执行,所述方法包括:
从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;
对每个新闻数据进行内容抽取,根据从所述新闻数据中抽取出的内容形成新闻正文页面;
如果所述抽取出的内容中存在图片URL,则直接从所述图片URL对应的图片中选出最优配图;
如果所述抽取出的内容中不存在图片URL,则根据所述新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图;
将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面并进行存储;
组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
2.如权利要求1所述的方法,所述直接从所述图片URL对应的图片中选出最优配图包括:
判断图片URL的数量是否大于1;
如果图片URL的数量大于1,则获取所述图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于所述分辨率和排序位置选出最优配图;
如果图片URL的数量等于1,则所述图片URL对应的图片即为最优配图。
3.如权利要求1或2所述的方法,所述根据所述新闻来源名称调用搜索引擎进行图片搜索包括:
根据所述新闻来源名称判断所述新闻数据的来源国家;
根据所述来源国家获取其对应的搜索引擎;
调用所述搜索引擎并以所述新闻标题为搜索词进行图片搜索。
4.如权利要求1-3中任一项所述的方法,所述从搜索到的图片中选出最优配图包括:
从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,所述属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;
若所述URL信息包括图片URL,则将所述图片ALT标签与所述新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
5.如权利要求4中所述的方法,所述从搜索到的图片中选出最优配图还包括:
若所述URL信息包括图片来源网页URL,则采集所述图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
6.如权利要求4或5所述的方法,其中,N等于5。
7.如权利要求4-6中任一项所述的方法,其中所述相似度阈值预设为30。
8.一种新闻聚合服务器,包括:
采集单元,适于从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;
内容处理单元,适于对每个新闻数据进行内容抽取,根据从所述新闻数据中抽取出的内容形成新闻正文页面,当所述抽取出的内容中存在图片URL时,直接从所述图片URL对应的图片中选出最优配图,将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面;
配图单元,适于当所述抽取出的内容中不存在图片URL时,根据所述新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,并触发内容处理单元将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面;
存储单元,适于存储所述配图新闻页面;
列表提供单元,适于组合存储单元中存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
9.如权利要求8所述的新闻聚合服务器,所述内容处理单元进一步适于:
判断图片URL的数量是否大于1;
当图片URL的数量大于1时,获取所述图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于所述分辨率和排序位置选出最优配图;
当图片URL的数量等于1时,所述图片URL对应的图片即为最优配图。
10.如权利要求8或9所述的新闻聚合服务器,所述配图单元进一步适于:
根据所述新闻来源名称判断所述新闻数据的来源国家;
根据所述来源国家获取其对应的搜索引擎;
调用所述搜索引擎并以所述新闻标题为搜索词进行图片搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京麒麟合盛网络技术有限公司,未经北京麒麟合盛网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611178531.5/1.html,转载请声明来源钻瓜专利网。





