[发明专利]用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法在审
申请号: | 201880090471.2 | 申请日: | 2018-12-27 |
公开(公告)号: | CN111742322A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 贺一帆;赵林;徐魁;冯哲 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/08;G06N3/04 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张健;陈岚 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 使用 深度 神经网络 进行 立于 领域 语言 定义 提取 系统 方法 | ||
一种用于自动生成术语定义知识库(KB)的方法,包括使用密集向量表示将单词序列中的每个单词映射到实值密集向量。然后,使用卷积神经网络(CNN)模型来处理所述单词序列,以标识所述单词序列是否包括术语定义,并且利用指示所述单词序列内是否存在术语定义的标记来标记所述单词序列。然后,使用条件随机场(CRF)模型来处理所述单词序列,以标识所述单词序列中的术语定义的边界。然后,提取术语定义并且将其添加到术语定义KB。
相关申请的交叉引用
本申请要求He等人于2017年12月29日提交的题为“SYSTEM AND METHOD FOR DOMAIN-AND LANGUAGE- INDEPENDENT DEFINITION EXTRACTION USING DEEP NEURAL NETWORKS”的美国临时申请序列号62/611,577的优先权,该申请的公开内容通过引用在此整体地并入本文中。
技术领域
本发明涉及自然语言处理(NLP)、信息提取、术语处理和人机交互(HMI)的领域。
背景技术
知识库(KB)处于现代智能系统的最重要的支柱之中。KB既作为独立的产品或服务而提供,又使得能够实现下游应用,诸如问题回答和语义搜索:例如,为了由汽车专业人士来回答关于“直接注入”的问题,许多系统都依赖于关于汽车术语的预先构建的知识库。
基于KB的应用面临的主要障碍之一是:与手动KB构建、尤其是特定于领域的KB构建相关联的庞大成本,该KB构建需要领域专家进行大量繁琐的工作。
自动KB构建由于显著降低该成本的可能性而吸引了很多兴趣。然而,大多数自动KB构建仍然依赖于复杂的机器学习算法和精心策划(curate)的特征,并且它仍然需要相当多的努力来设计这些算法和特征并且使这些算法和特征适应不同的语言,这将使所需的努力倍增。
发明内容
提出了一种用于从自由文本中提取术语定义的系统,该系统不需要特征设计并且独立于领域和语言两者。它利用无监督式单词向量来捕获单词中的语义信息,并且利用CNN和CRF模型来分别检测定义的存在和边界,从而产生几乎不需要人类干预的定义提取系统。
附图说明
图1是根据本公开的用于自动构建术语定义知识库(KB)的系统的高级架构的示意图。
图2是根据本公开的独立于领域的术语链接系统的工作流程图。
图3描绘了用于定义标识的CNN架构。
具体实施方式
出于促进对本公开原理的理解的目的,现在将参考附图中所图示、并且在以下书面说明书中描述的实施例。要理解的是,由此不意图对本公开的范围进行限制。要进一步理解的是,本公开包括对所说明的实施例的任何更改和修改,并且包括本公开所属领域的普通技术人员将通常想到的对本公开原理的进一步应用。
本公开涉及一种用于自动构建术语定义KB的系统和方法,该系统和方法在特征设计方面需要最小的努力并且易于适应多种语言。图1中描绘了这种系统的架构的高级示意图。该系统接收文本媒体(诸如,技术文档和用户生成的内容)作为输入。技术文档包括:学术论文、技术报告、规范、手册等,而用户生成的内容指代已经由用户生成并且发布到在线平台(诸如,社交媒体、Wiki、论坛等等)的文本内容。该系统从文本媒体来输出具有术语定义的术语KB。术语KB可以采用任何合适的形式。
该系统包括定义提取系统,该定义提取系统被配置成使用单词向量模型、卷积神经网络(CNN)模型和条件随机场(CRF)模型,以便从文本媒体中标识并提取术语定义,并且使用所提取的定义来构建术语定义KB。定义提取系统可以在线地实现为服务器,该服务器提供术语定义提取和知识库生成作为服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880090471.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于个人UV暴露测量的装置和系统
- 下一篇:始终开启的关键字检测器