[发明专利]一种基于卷积神经网络和距离监督的关系抽取方法有效
申请号: | 201610393749.6 | 申请日: | 2016-06-06 |
公开(公告)号: | CN106055675B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 凌立刚;朱海鹏 | 申请(专利权)人: | 杭州量知数据科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27;G06N3/02 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高;傅朝栋 |
地址: | 310013 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络和距离监督的关系抽取方法。包括如下步骤:(1)将已有的少量关系映射成所需要的关系类型;(2)扩展已有的关系中实体的不同表达方式;(3)从互联网上获取大量相关的非结构化文本,并建立索引;(4)通过索引查询与实体相关的句子,并分出正负样本;(5)基于卷积神经网络,将样本转换为特征向量;(6)利用获取的特征向量,对文本进行分类,得到新的关系对。本发明基于一个句子可能存在一种关系的假设,从少量的已知关系开始,利用大量来自互联网的非结构化文本,获取得到大量新的结构化信息,也就是发现新的关系。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 距离 监督 关系 抽取 方法 | ||
【主权项】:
1.一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于包含如下步骤:1)将已有的关系映射成目标关系;2)扩展已有的关系中实体别名,通过问题扩展寻找实体别名的各种不同的形式,具体为:2.1)寻找已有的关系中实体在维基百科上的重定向链接所对应的实体别名;2.2)对没有全名的实体别名进行扩展:缩写转换成全名或在没有后缀的实体别名后面加上后缀;2.3)对没有缩写的实体别名进行缩减:首字母缩写或将全名进行部分表述;2.4)对步骤2.1)~2.3)进行迭代,直到找到满足目标需求的实体别名;2.5)采用实体链接和消除歧义对实体别名进行过滤处理;3)从互联网上获取实体相关的非结构化文本,并建立索引;4)通过索引查询与实体别名相关的句子,并分离出正负样本;5)基于卷积神经网络,将正负样本转换为特征向量;6)利用获取的特征向量,用多实例多标签模型,对非结构化文本进行分类,得到新的关系对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州量知数据科技有限公司,未经杭州量知数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610393749.6/,转载请声明来源钻瓜专利网。