[发明专利]一种提取网页正文的方法及装置在审
| 申请号: | 201910129532.8 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109948089A | 公开(公告)日: | 2019-06-28 |
| 发明(设计)人: | 杨永全;翟世平;魏志强;尹垄钧 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/955;G06F16/33 |
| 代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页正文 词向量 多维 上下文向量 抽象 编码器编码 网页源代码 矩阵 输出预测 向量分配 正文信息 对齐 解码 准确率 放入 权重 算法 映射 输出 | ||
1.一种提取网页正文的方法,其特征在于,包括:
提取网页源代码中HTML DOM树中包含网页正文的元素;
将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
2.根据权利要注1所述的方法,其特征在于,所述网页源代码,具体的可以为HTML标签语言编写的源代码。
3.根据权利要求1所述的方法,其特征在于,所述提取网页源代码中HTMLDOM树中包含网页正文的元素,具体的,可以通过正则表达式过滤提取出HTMLDOM树中包含网页正文的元素。
4.根据权利要求1所述的方法,其特征在于,将网页正文的元素名称映射入一个多维的词向量空间,包括:
通过word enbeding的方式,将所述元素名称映射入一个多维的词向量空间。
5.根据权利要求1所述的方法,其特征在于,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中,包括:
为每一个元素名称分配相应的词向量;
将所有词向量构成多维词向量矩阵;
将所述矩阵放入Seq2Seq框架中。
6.根据权利要求5所述的方法,其特征在于,还包括:
在Seq2Seq框架中加入bucket机制,以允许Seq2Seq框架的输入输出数据长度不相等。
7.根据权利要求1所述的方法,其特征在于,根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C,包括:
为每一个元素名称分配一个影响预测结果的权重;
在Seq2Seq框架的编码端,将输入的词向量矩阵通过编码器编码为抽象的上下文向量C。
8.根据权利要求1所述的方法,其特征在于,所述根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,包括:
在Seq2Seq框架的解码端,根据Attention机制为输入端的每一个向量分配的权重与对齐方式,通过beam-search的方法对所述抽象的上下文向量进行解码。
9.根据权利要求1所述的方法,其特征在于,所述根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文,包括:
预先设定网页正文属性的相关度的阈值;
若网页正文属性的相关度符合阈值要求,则判断为正文,并将正文输出。
10.根据权利要求1或9所述的方法,其特征在于,所述网页正文属性,包括:正文长度、正文内容以及网页标题。
11.一种提取网页正文的装置,其特征在于,包括:
提取单元,用于提取网页源代码中HTML DOM树中包含网页正文的元素;
矩阵构成单元,用于将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;
元素名称输出单元,用于根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量C;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;
网页正文输出单元,用于将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对对网页正文属性的相关度进行判断,输出网页正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910129532.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种广告拦截方法及系统
- 下一篇:网页加载方法及装置





