[发明专利]一种提取网页正文的方法及装置在审
| 申请号: | 201910129532.8 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109948089A | 公开(公告)日: | 2019-06-28 |
| 发明(设计)人: | 杨永全;翟世平;魏志强;尹垄钧 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/955;G06F16/33 |
| 代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页正文 词向量 多维 上下文向量 抽象 编码器编码 网页源代码 矩阵 输出预测 向量分配 正文信息 对齐 解码 准确率 放入 权重 算法 映射 输出 | ||
本发明公开了一种提取网页正文的方法,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,输出网页正文。解决了网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
技术领域
本申请涉及互联网技术领域,具体涉及一种提取网页正文的方法,同时涉及一种提取网页正文的装置。
背景技术
网络技术急速发展,web页面的规模越来越大,广告等无关噪音信息也越来越多,使得数据挖掘、信息检索等变得越来越艰巨。现阶段的Web网页信息抽取技术存在通用性差、适应性差的缺陷,无法适应网页的异构性和易变性,且正文信息的主题相关信息抽取忽略节点结构关系,导致抽取效率低,相关链接抽取浪费大量的向量空间,语义主题信息不够明确,导致抽取效率不高。
目前,基于DOM树的网页正文提取技术的大致流程为:利用开源工具HT MLParser等处理HTML,修正HTML中不规范的地方。根据规范后的HTML 建立DOM树,递归遍历DOM树并比较识别其中的非正文信息,比如广告、导航、标签等等。非正文信息移除后,剩下的就是正文信息。基于DOM树的网页正文提取技术缺点:
(1)正文的判断仅仅依赖于已知的非正文信息节点,判断准确率低。
(2)后续无相应的算法来确保正文信息节点的正确性和可靠性。
(3)解析DOM树本身的效率比较低,因为需要对文档中的每个 element/attribute/comment等非正文节点都要创建对象。
发明内容
本申请提供一种提取网页正文的方法,解决了对网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
本申请提供一种提取网页正文的方法,其特征在于,包括:
提取网页源代码中HTML DOM树中包含网页正文的元素;
将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
优选的,所述网页源代码,具体的可以为HTML标签语言编写的源代码。
优选的,所述提取网页源代码中HTML DOM树中包含网页正文的元素,具体的,可以通过正则表达式过滤提取出HTML DOM树中包含网页正文的元素。
优选的,将网页正文的元素名称映射入一个多维的词向量空间,包括:
通过word enbeding的方式,将所述元素名称映射入一个多维的词向量空间。
优选的,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中,包括:
为每一个元素名称分配相应的词向量;
将所有词向量构成多维词向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910129532.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种广告拦截方法及系统
- 下一篇:网页加载方法及装置





