[发明专利]基于深度学习的网页正文抽取方法有效

申请号：	202110026891.8	申请日：	2021-01-09
公开（公告）号：	CN112667940B	公开（公告）日：	2022-02-18
发明（设计）人：	陈前华	申请（专利权）人：	广东电子工业研究院有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06N3/04;G06N3/08
代理公司：	北京喆翙知识产权代理有限公司 11616	代理人：	叶似锦
地址：	523808 广东省东莞***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于深度学习的网页正文抽取方法，包括如下步骤：1)根DOM节点到叶子DOM节点的数据集准备；2)根DOM节点到叶子DOM节点的数据集构建；3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注；4)利用Fasttext对路径的标签进行预训练和编码；5)训练标签路径文本的LSTM分类模型；6)LSTM模型对标签路径文本进行预测；7)还原抽取到的网页正文。本发明属于互联网技术领域，具体是指提高简历网页正文抽取正确率的基于深度学习的网页正文抽取方法。
搜索关键词：	基于深度学习网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东电子工业研究院有限公司，未经广东电子工业研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110026891.8/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载