[发明专利]一种网页正文及要素提取的方法和系统有效
申请号: | 201911252927.3 | 申请日: | 2019-12-09 |
公开(公告)号: | CN110990738B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 李兆钧;罗啟泽;雷小平 | 申请(专利权)人: | 创优数字科技(广东)有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/958 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 516000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页正文及要素提取的方法和系统,其方法包括以下步骤:从同一平台采集多个网页,分别对单个网页进行预处理;计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则重新采集网页。本发明提供的网页正文及要素提取的方法和系统,能提取的网页元素较多,能提高网页提取的准确性和效率,能评估提取的可靠性程度。 | ||
搜索关键词: | 一种 网页 正文 要素 提取 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创优数字科技(广东)有限公司,未经创优数字科技(广东)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911252927.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种分液处理器
- 下一篇:基于模具制作牙齿的方法