[发明专利]一种基于规则与深度学习的知识抽取方法在审

专利信息
申请号: 201810505732.4 申请日: 2018-05-24
公开(公告)号: CN108959375A 公开(公告)日: 2018-12-07
发明(设计)人: 孟涛;李佳静 申请(专利权)人: 南京网感至察信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06N3/04
代理公司: 南京源古知识产权代理事务所(普通合伙) 32300 代理人: 郑宜梅
地址: 210001 江苏省南京市秦淮区光华*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识抽取 评价标准 取出 文本 机器学习 生成规则 专家定义 冷启动 预设 学习 标注 匹配 抽取 评判 重复
【说明书】:

发明涉及一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并将该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四,直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题,也能够得到未知的概念和概念间的关系,能够提高知识抽取的召回率。

技术领域

本发明涉及文本挖掘与信息抽取的技术领域,具体涉及一种基于规则与深度学习的知识抽取方法。

背景技术

知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则,以及行问题求解的步骤、规则的过程。目前针对文本的知识抽取技术大致可以分为两类:机器学习方法或基于规则的方法。机器学习方法经常需要大量的训练语料,并且使用复杂的、难以解释的模型。机器学习和自然语言处理技术,可以用来实现监督分类,产生模型,语义分析,词性标注等。其他的工作还包括使用马尔可夫逻辑网络(MLN),隐马尔科夫模型(HMM)和条件随机场(CRF)等,例如将输入语句映射为标记序列。这些方法需要大量的训练数据,难以解决冷启动的问题。

规则的方法可以提供清晰、容易理解的特定域的语言,但是通常很费时费力。规则方法通常依赖于领域专家定义的规则。常见的基于规则的方法包括包装器方法,这些系统需要学习提取目标周围的分割符,这使得它们只能分析特定结构的文档,例如DOM结构的文档。虽然基于规则的方法精确率较高,但通常存在召回率较低的问题。

发明内容

1、所要解决的技术问题:

本发明的目的在于提供一种基于规则与深度学习的知识抽取方法,本方法是将知识抽取中的规则方法和深度学习方法融合,以克服单一方法的缺点,获得更好的抽取结果。本发明首先使用少量的规则对概念和概念的关系进行定义,抽取生成训练语料,进一步从这些语料中学习,以解决机器学习的冷启动问题,同时解决规则方法召回率较低的缺点。

2、技术方案:

一种基于规则与深度学习的知识抽取方法,包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。

步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。

步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系。

步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。

步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。

进一步地,所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。所述布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。

进一步地,所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。

进一步地,所述步骤二中的知识抽取是基于TML语言实现。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京网感至察信息科技有限公司,未经南京网感至察信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810505732.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top