[发明专利]一种基于Deepdive的领域文本知识抽取方法有效
申请号: | 201710326192.9 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107169079B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 陈华钧;陈曦;张宁豫;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F17/27;G06N99/00 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Deepdive的领域文本知识抽取方法,包括:(1)获取知识库构建系统所需的原始文本,并且对其进行预处理;(2)对预处理后的文本进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对多个候选关系实体对进行学习和标注,生成Deepdive工具的训练样本;(4)将训练样本输入至Deepdive工具中,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。本发明能够用于完成领域知识库的构建工作,具有很强的扩展性,对于非结构化数据的利用和提取工作具有很好的实用价值。 | ||
搜索关键词: | 一种 基于 deepdive 领域 文本 知识 抽取 方法 | ||
【主权项】:
1.一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库;所述的采用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括:(a)候选关系实体对集中的候选关系实体对标注为正例,采用负抽样方法获得反例;(b)利用相似的语法结构来制定相应的规则,检测某些语句是否表达某一特定关系,并且将这些数据标注为正例;(c)不断迭代步骤(b),直到满足迭代次数或获得足够多的候选关系实体为止,输出最后得到的所有候选关系实体;所述Deepdive训练的过程为:首先,Deepdive内建的特征库处理训练样本中候选关系实体对的上下文,从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签;然后,根据提取的nGram特性和词性标签以及训练样本,采用Factor Graph进行图概率的统计推理和知识学习,得到概率值大于阈值的候选关系实体对,组成提取的知识库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710326192.9/,转载请声明来源钻瓜专利网。