[发明专利]一种应用于生物医学文献的实体关系抽取方法有效
申请号: | 202010480252.4 | 申请日: | 2020-05-30 |
公开(公告)号: | CN111708896B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 杨志豪;孙聪 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F40/205;G06F40/30;G06N3/04 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 生物医学 文献 实体 关系 抽取 方法 | ||
本发明属于生物医学文本挖掘技术领域,一种应用于生物医学文献的实体关系抽取方法,包括以下步骤:(1)数据处理,(2)句子分段,(3)向量拼接,(4)循环神经网络(RNN)学习语义信息,(5)卷积神经网络(CNN)学习语义信息,(6)信息拼接,(7)信息学习,(8)信息分类,(9)保存实体关系三元组。本发明优点在于:通过将句子分成五个部分,相当于缩短了原句子长度,并结合CNN和RNN的特点,能够最大限度地学习到句子的语义特征,能够更好地实现从生物医学文献中抽取实体关系。
技术领域
本发明涉及一种应用于生物医学文献的实体关系抽取方法,属于生物医学文本挖掘技术领域。
背景技术
随着生物信息学的发展,利用自然语言处理技术实现生物医学实体间关系的抽取成为一种趋势。基于自然语言处理的文本挖掘方法能够从海量的生物医学文献中挖掘生物医学实体是否存在关系,以及存在哪一种关系。这对于生物医学知识图谱的构建,生物医学数据库的建设,都具有非常重要的意义。
从生物医学文献中抽取生物医学实体关系的传统方法主要是利用核函数或者特征工程来实现关系抽取的。这些方法性能的好坏依赖于核函数或特征工程的质量,而高质量的核函数或特征的设计往往需要相关领域知识以及大量重复的独立性实验。因此,传统方法很难在实际应用中推广使用。目前,神经网络模型逐渐成为研究的主流模型,卷积神经网络(CNN)和循环神经网络(RNN)是神经网络中具有代表性的两种网络模型,其中,前者更适合于学习局部特征,后者虽然适合于学习全局特征,但其具有偏置的特点(即后输入的信息往往对目标对象影响更大)。生物医学文献具有句子长度长,实体跨度大等特点。因此,神经网络中的卷积神经网络(CNN)和循环神经网络(RNN)均不能有效地解决生物医学文献长句子实体关系抽取的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种应用于生物医学文献的实体关系抽取方法。该方法,通过将句子分成五个部分,相当于缩短了原句子长度,并结合CNN和RNN的特点,能够最大限度地学习到句子的语义特征,能够更好地实现从生物医学文献中抽取实体关系。克服了由于生物医学文献具有句子长度长,实体跨度大而不能有效地解决生物医学文献长句子实体关系抽取的问题。
为了实现上述发明目的,解决现有技术存在的问题,本发明采取的技术方案是:一种应用于生物医学文献的实体关系抽取方法,包括以下步骤:
步骤1、数据处理,将采集已标注的公开数据集,利用自然语言处理技术对输入的篇章/摘要文本进行切句,以分号、句号、问号、惊叹号作为一个句子的分隔符,之后,选取那些句子中包含目标实体对的句子作为输入模型的语句,同时,对于输入模型的语句,将对应的实体用chemical和gene字符进行替换,将数字用num字符进行替换,这里定义输入模型的语句为S={w1,w2,…,T1,…T2,…wn},其中,w1,w2,…wn分别表示输入模型的语句中第1个,第2个…第n个单词,T1和T2分别表示实体1和实体2;
步骤2、句子分段,根据目标实体对将输入模型的语句切分成句子头至实体1,实体1,实体1至实体2,实体2,实体2至句子尾五个部分,这样输入模型的语句表示为S=[S1,T1,S2,T2,S3],其中,S1,S2,S3分别表示语句左部、语句中部和语句右部,T1、T2分别表示实体1、实体2;
步骤3、向量拼接,具体包括以下子步骤:
(a)单词向量生成,利用Word2Vec、GloVe、FastText词向量工具生成词向量表Eword,并将输入模型的语句中的每个单词映射成对应的单词向量;
(b)词性向量生成,利用Stanford parser语法分析工具生成每一个单词相对应的词性表示,并将这些词性表示随机初始化为向量值Epos;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010480252.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保温板连接结构
- 下一篇:一种用于医疗废物处理的物联网监控方法