[发明专利]一种基于BTBC模型的知识图谱构建方法在审
申请号: | 202110702281.5 | 申请日: | 2021-06-21 |
公开(公告)号: | CN114077673A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李飞;章韵 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04;G06N3/08;G16H50/70;G16H70/00 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 btbc 模型 知识 图谱 构建 方法 | ||
本发明是一种基于BTBC模型的知识图谱构建方法,上下文编码层采用Tiered‑BiLSTM‑CRF模型,通过动态堆叠平面NER层来识别嵌套实体,每个平面NER层均为BiLSTM‑CRF的平面NER模型,每一层将LSTM层的实体输出融合,再输出到下一个平面NER层中,关系抽取层采用多头关系抽取模型,最后以三元组的格式存储在Neo4j图数据库里。本发明将具有更强文本特征表示能力的BERT预训练模型做特征表示层,结合Tiered‑BiLSTM‑CRF,突出了上下文语义特征中的重要特征,在识别多对关系的基础上,有效解决了实体重叠的问题,提高图谱构建的准确性。
技术领域
本发明属于深度学习和自然语言处理技术领域,具体的说是涉及一种基于BTBC模型的知识图谱构建方法。
背景技术
知识图谱的构建是指利用自然语言处理和深度学习的技术,从非结构化文本中抽取、存储的过程。目前,知识图谱构建研究涉及多个领域,包括自然语言处理、机器学习和信息抽取等,得到了许多研究者的关注。在领域知识图谱中,医疗知识图谱占有很大比例,例如Linked Life Data项目包括25个公共生物医学数据库,可以访问100亿个RDF语句,包括基因、药物、临床试验和副作用等等。医疗知识图谱的构建可以应用于辅助医生对疾病进行诊断,减少查阅资料的时间,提高工作效率,降低治疗成本,挖掘药物间的相似联系;对于用户而言,知识图谱的应用可以使医学问答更加智能和专业,同时方便用户在搜索引擎中查询疾病或症状。
知识图谱的构建实质上就是将基础数据以多种方法和技术构建成一个三元组集合的过程,涉及到数据获取、实体关系抽取、知识表示、知识融合、知识存储和知识推理等多项技术。
上下文编码器常使用卷积神经网络(CNN)和循环神经网络(RNN)。其中,CNN能够提取输入数据的局部特征,因此主要用于特征的学习;RNN考虑句子中字符间的影响,可同时用于特征学习和序列标注,RNN中的长短期记忆网络(LSTM)在序列数据建模方面取得了显著成效,特别是双向LSTM(BiLSTM〉能从两个方向来处理一个句子。但是没有词嵌入层,随机初始化效果不稳定。
BERT最大的创新在于用Transformer同时引入上下文信息。该模型用transformerencoder的结构,为了防止标签泄漏,提出了Masked LM的预训练,引入上下文信息参与训练,但是在计算的过程中弱化了位置信息。
CN112347265A公开了一种知识图谱构建方法,该方法对需要处理的句子进行分词,得到多个单独词;识别多个单独词中的实体,得到两个一组的实体对;对于每个实体对,获取句子的句向量;根据句向量,提取所述句子的表示特征;对所述表示特征进行特征筛选,屏蔽其中的噪声特征;根据表示特征预测所述实体对的实体关系;根据实体对和对应的实体关系构建知识图谱,虽然此方法可以将实现了噪声特征的滤除,但是这种知识图谱的构建需要投入了大量的人工和时间投入,且构建知识图谱的效率低成本高。
发明内容
为了解决上述问题,本发明提供了一种基于BTBC模型的知识图谱构建方法,针对现有的BERT模型进行改进,用LSTM习得观测序列上的依赖关系,最后再用CRF习得状态序列的关系并得到答案。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于BTBC模型的知识图谱构建方法,该BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量。
步骤1中的预训练具体为:面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702281.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:有机化合物及电子元件和电子装置
- 下一篇:半导体元件及其制备方法