[发明专利]一种提取网页正文的方法及装置在审
| 申请号: | 201910129532.8 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109948089A | 公开(公告)日: | 2019-06-28 |
| 发明(设计)人: | 杨永全;翟世平;魏志强;尹垄钧 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/955;G06F16/33 |
| 代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种提取网页正文的方法,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,输出网页正文。解决了网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。 | ||
| 搜索关键词: | 网页正文 词向量 多维 上下文向量 抽象 编码器编码 网页源代码 矩阵 输出预测 向量分配 正文信息 对齐 解码 准确率 放入 权重 算法 映射 输出 | ||
【主权项】:
1.一种提取网页正文的方法,其特征在于,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910129532.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种广告拦截方法及系统
- 下一篇:网页加载方法及装置





