[发明专利]一种提取网页正文的方法及装置在审

申请号：	201910129532.8	申请日：	2019-02-21
公开（公告）号：	CN109948089A	公开（公告）日：	2019-06-28
发明（设计）人：	杨永全;翟世平;魏志强;尹垄钧	申请（专利权）人：	中国海洋大学
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/955;G06F16/33
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	姜丽楼
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种提取网页正文的方法，包括：提取网页源代码中HTML DOM树中包含网页正文的元素；将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；将所述网页正文的元素名称通过Jsoup技术，输出网页正文。解决了网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。
搜索关键词：	网页正文词向量多维上下文向量抽象编码器编码网页源代码矩阵输出预测向量分配正文信息对齐解码准确率放入权重算法映射输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种提取网页正文的方法，其特征在于，包括：提取网页源代码中HTML DOM树中包含网页正文的元素；将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对网页正文属性的相关度进行判断，输出网页正文。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国海洋大学，未经中国海洋大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910129532.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取网页正文的方法及装置在审

专利文献下载