[发明专利]一种基于深度学习的信息技术数据实体属性抽取方法在审

专利信息
申请号: 202010316616.5 申请日: 2020-04-21
公开(公告)号: CN111914055A 公开(公告)日: 2020-11-10
发明(设计)人: 郭绍翠;杨旭;宋正强;孙维夫 申请(专利权)人: 烟台职业学院
主分类号: G06F16/31 分类号: G06F16/31;G06F16/35;G06F40/295;G06F16/332
代理公司: 深圳紫晴专利代理事务所(普通合伙) 44646 代理人: 付钦伟
地址: 264670 山东省烟台*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 信息技术 数据 实体 属性 抽取 方法
【说明书】:

发明公开了一种基于深度学习的信息技术数据实体属性抽取方法,包括插入、编码、处理和判定四个步骤,将文本信息里的字或者词变成一个稠密的向量,便于取机器的识别,并创建一个为待变成稠密向量的词与实体之间的位置;通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,并通过制表的方式将头实体与实体之间的关系实现一一对应,便于机器根据算法进行文本信息内多个实体之间层级关系的区分,不会因两个实体之间的距离大小受到限制,通过表格使各个实体之间的关系更加的明显,防止出现关系错杂的情况,导致机器对文本信息的识别准确率下降。

技术领域

本发明涉及信息抽取技术领域,具体涉及一种基于深度学习的信息技术数据实体属性抽取方法。

背景技术

信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。

现有技术存在以下不足:

1、现有的信息抽取传统技术对层级关系的处理较困难,导致工作人员难以根据文本信息里的多个实体之间进行建模,使文本信息里的多个实体之间的层级关系难以被机器区分。

2、现有的信息抽取传统技术在对一段文本信息进行处理时,文本信息里的两个实体之间的距离较远,且两个实体之间相互存在关系,使机器在进行信息抽取的过程中易因关系的错杂,导致识别准确率下降的情况。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的是提供一种基于深度学习的信息技术数据实体属性抽取方法,通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,通过表格体现出的各个实体之间的关系,便于机器根据算法进行文本信息内多个实体之间层级关系的区分,防止出现关系错杂的情况,导致机器对文本信息的识别准确率下降,以解决技术中的上述不足之处。

为了实现上述目的,本发明提供如下技术方案:一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤:

一、插入——将字或者词变成一个稠密的向量,一般认为待变成稠密向量的词与实体之间的位置是一个相对位置;

二、编码——对于关系识别来说,即包含卷积神经网络相关的,也包含运行相关的,把上下文的信息考虑进来。举例说明,一个脉冲耦合神经网络可通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化,再经过Softmax分类器进行分类;

三、处理——处理器可以处理分辨出两个实体是由于哪个词分辨出是顾佣的关系;

四、判定——对定长的向量进行判定分类,主要是把两部分的一些模型的参数在底层被共享起来。

优选的,将文本信息里的字或者词变成一个稠密的向量,便于取机器的识别。

优选的,创建一个为待变成稠密向量的词与实体之间的位置。

优选的,在获取对应位置的稠密向量后,使脉冲耦合神经网络通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化。

优选的,再将最大值池化的每个部分经过Softmax分类器进行分类,避免因直接对多个部分进行最大值池化造成数据信息的丢失,提高机器抽取的准确度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台职业学院,未经烟台职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010316616.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top