[发明专利]新闻聚合与智能实体关联的方法有效

专利信息
申请号: 201810832345.1 申请日: 2018-07-26
公开(公告)号: CN109033358B 公开(公告)日: 2022-06-10
发明(设计)人: 李辰洋 申请(专利权)人: 李辰洋
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06F16/35;G06F40/295
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 孙民兴
地址: 100024 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻 聚合 智能 实体 关联 方法
【说明书】:

发明公开了一种新闻聚合与智能实体关联的方法,通过轮询用户感兴趣的网站上的新增新闻,采用爬虫抓取网页,并利用支持向量机进行0‑1分类以提取新闻正文,对新闻正文进行自然语言处理后,对文本中出现的人物和地理名称在Wikidata知识图谱中搜索对应实体,通过上位词确定实体类型,将新闻六元组(标题,时间,URL,正文,人物实体,地理实体)存入本地文档数据库,在用户搜索相关实体时,列出相关新闻,并通过地图展示关联到Wikida的新闻地点,通过卡片展示关联到Wikida中的人物档案。通过本发明的技术方案,提供了一种关联知识推送的具有背景知识的增强型新闻阅读方式,改善了用户的阅读体验。

技术领域

本发明涉及信息检索方法技术领域,尤其涉及一种新闻聚合与智能实体关联。

背景技术

随着互联网Web2.0、社交网络、移动互联网的发展,新闻发生到经过社交网络、门户网站、主流媒体的传播几乎成为秒级事件,特别是机器参与新闻的采集、生成和转发,导致了海量新闻充斥网络,使用户处于数据汪洋之中,难以发现有价值的新闻数据。实际上,在舆情监控领域,用户关注的是与自身密切相关的主题和关键词的新闻传播与事件影响力。对于普通用户,希望通过聚合新闻,了解天下大事,需要读取新闻的同时了解相关的新闻发生地理信息和人物信息,以洞悉新闻事件的背景资料和关联知识。因此,通过知识图谱实现文本的智能实体标注提供有背景知识的新闻成为一种带有普遍性的用户需求。

(1)国内著名的新闻聚合网站有百度新闻、今日头条、UC头条、天天快报、电力头条等。这些网站通过爬虫聚合全网新闻数据,通过算法和人工推荐,实现用户的定制化新闻阅读,提高信息获取效率。该方法存在对用户个体兴趣和群体点击的过拟合,导致推荐有效性不高,存在泛娱乐化问题。此外,这些方法仅提供了新闻正文,没能有效利用新闻背景信息进行信息增强和可视化展示。

(2)带有噪声抑制的主题爬虫研究概况。2014年斯坦福大学的Ziyan Zhou等采用DOM树标签、CSS样式和页面元素几何特征输入SVM分类器识别网页正文。2015年,Mozilla公司的Matthew E.Peters等人采用页面元素的文本统计特征进行线性分类,达到了商业产品级的使用性能,并作为新功能嵌入了Mozilla公司的Firefox浏览器。

支持向量机(SVM)基于结构风险最小化理论在特征空间中构建最优超平面,使得学习器得到全局最优化。支持向量机属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题中有良好的表现。

实际上,正文提取就是在XML/HTML上的文本分类,通常正文文本HTML元素具有段落元素多、元素样式类中包含类似“content”“body”关键词、页面几何占比大的特征。Christian Kohlschütter等开发的Boilerpipe正文提取框架,基于SVM提取正文,并提供API。

(3)命名实体识别技术。斯坦福大学自然语言处理组的Jenny Rose Finkel等采用具有全局特征的条件随机场(CRF)实现了命名实体识别,具有业界领先的识别性能。

国内,杨东华等在大数据清洗过程优化中计算实体相似度,采用并行实体聚类,实现实体识别。王宏志李亚坤等研究了数据质量管理中的实体识别,用于错误检测、不一致数据发现等,将传统文本实体识别推广到XML数据、图数据和复杂网络上。孙琛琛等研究了面向关联数据的联合式实体识别,将相似度算法应用在对象图上,迭代地收缩相似节点,实现实体聚类。寇月等利用关联实体识别技术对异构网络中主题相关的实体检测并整合,更好地帮助用户理解搜索目标。高俊平等基于条件随机场研究了面向中文维基百科领域知识的演化关系抽取方法,利用语法分析特征,挖掘演化关系模式,构建演化关系推理模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李辰洋,未经李辰洋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810832345.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top