[发明专利]基于网络的结构阅读理解的建模处理方法和装置在审

专利信息
申请号: 202110985029.X 申请日: 2021-08-24
公开(公告)号: CN113688207A 公开(公告)日: 2021-11-23
发明(设计)人: 俞凯;陈露;赵梓涵;曹瑞升;许洪深 申请(专利权)人: 思必驰科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/35;G06N3/04;G06N3/08
代理公司: 北京商专永信知识产权代理事务所(普通合伙) 11400 代理人: 黄谦;邓婷婷
地址: 215123 江苏省苏州市苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网络 结构 阅读 理解 建模 处理 方法 装置
【说明书】:

发明公开一种基于网络的结构阅读理解的建模处理方法和装置,其中,方法包括:将答案文段的预测任务建模为一个两阶段的过程,所述两阶段包括答案节点的定位和答案文段的提炼;在所述答案节点的定位中,使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测,其中,所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点;在所述答案文段的提炼中,在所述答案节点的限制下进行答案文段的预测。通过将答案文段的预测任务建模为一个两阶段的过程,采用拓扑信息增强的预训练语言模型进行预测,可以更好地捕获网页中更具信息性的拓扑结构,从而可以更好地理解结构化网页中包含的拓扑信息。

技术领域

本发明属于神经网络领域,尤其涉及基于网络的结构阅读理解的建模处理方法和装置。

背景技术

随着互联网的飞速发展,网页已经成为最常见、最丰富的信息来源。因此,理解结构化网页内容的能力将为深度学习系统提供丰富多样的知识来源。每个网页主要由相应的超文本标记语言(HTML)代码呈现。这样,对结构化网页的理解就可以通过对其HTML代码的理解来实现。验证理解能力的常用任务之一是问答(QA)。然而,以前的QA模型只关注对纯文本的理解或知识库(KBs)。由于HTML代码中隐式且内含丰富信息的结构,直接理解结构化网页的HTML代码的研究较少。

WebSRC论文中的H-PLM模型,其本质上是一种数据处理的思想,将HTML代码中的所有的标签作为特殊的词元加入到字典当中,这样就可以将代码完整的输入到预训练语言模型中,从而能够对标签中所蕴含的上下文信息和结构信息进行建模和理解。发明人发现,其不能显式的利用网页中的拓扑信息,比如逻辑结构和空间结构。在上述技术中,模型必须从标签的顺序和上下文等信息中,学习到构建逻辑和空间结构的方法,这种映射关系是非常复杂而又灵活的,难以很好的建模。

相关技术中将基于隐式结构化上下文的QA任务定义为结构化阅读理解(SRC),并试图通过利用HTML标签和结构化网页的可视化屏幕截图来解决基于Web的SRC。他们将HTML标签视为特殊标记,并将原始扁平化HTML代码序列直接提供给预训练语言模型(PLM)。然而,他们提出的模型的性能相当有限。主要原因之一是,仅靠代码序列很难恢复拓扑结构。图1示出了WebSRC中的数据示例及其对应的DOM树和NPR图。如图1所示,上下文信息(图1中的(a))和不同种类的拓扑信息(图1中的(b)(DOM树)和(c)(NPR图))是不同的,相互补充的。因此,仅使用上下文信息理解结构化网页将非常困难。

发明内容

本发明实施例提供一种基于网络的结构阅读理解的建模处理方法及装置,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种基于网络的结构阅读理解的建模处理方法,包括:将答案文段的预测任务建模为一个两阶段的过程,所述两阶段包括答案节点的定位和答案文段的提炼;在所述答案节点的定位中,使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测,其中,所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点;在所述答案文段的提炼中,在所述答案节点的限制下进行答案文段的预测。

第二方面,本发明实施例提供一种基于网络的结构阅读理解的建模处理装置,包括:建模程序模块,配置为将答案文段的预测任务建模为一个两阶段的过程,所述两阶段包括答案节点的定位和答案文段的提炼;定位程序模块,配置为在所述答案节点的定位中,使用拓扑信息增强的预训练语言模型对所述答案文段所在的节点进行预测,其中,所述答案节点被定义为包含完整文本的最深层的HTML标签对应的节点;以及答案提炼程序模块,配置为在所述答案文段的提炼中,在所述答案节点的限制下进行答案文段的预测。

第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的基于网络的结构阅读理解的建模处理方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110985029.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top