[发明专利]面向循证医学领域的类别检测方法有效
| 申请号: | 201910508791.1 | 申请日: | 2019-06-12 |
| 公开(公告)号: | CN110210037B | 公开(公告)日: | 2020-04-07 |
| 发明(设计)人: | 琚生根;王婧妍;熊熙;李元媛;孙界平 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06N3/04;G16H15/00 |
| 代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 王红霞 |
| 地址: | 610065 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 医学 领域 类别 检测 方法 | ||
1.一种面向循证医学领域的类别检测方法,其特征在于,包括以下步骤:
将摘要中的每个句子分别进行ELMo与Bi-LSTM两种处理,得到句向量;
将所述句向量进行编码,得到包含有句子之间语义关系的文本表示向量;
将所述文本表示向量输入CRF模型进行句子序列分类,将待分类句子和句子类别标签分别作为CRF模型的观察序列和状态序列,通过下层网络提取的句子关联特征获得每个句子的标签概率;
所述将句向量进行编码,得到包含有句子之间语义关系的文本表示向量,包括以下步骤:
给摘要中n个独立句子进行编码,得到编码后的向量序列
将向量序列作为多连接Bi-LSTM的输入,将L层多连接LSTM的第一层的结果与句向量拼接作为第二层的输入,其后所有层的输入都是前一层输出的拼接,输出一系列包含上下文信息的文本表示向量;
对L层的多连接Bi-LSTM的输出取平均;
将得到的包含上下文信息的新的句子编码向量输入到单层前馈神经网络中,输出的每个句向量表示句子属于每个标签的概率,其中d是标签个数。
2.根据权利要求1所述的面向循证医学领域的类别检测方法,其特征在于,所述将摘要中的每个句子进行ELMo处理,具体为:
将即单词序列Sentence={w1,w2,...,wt}作为输入,其中t为句子长度,wi为句子中的单词,然后经过ELMo和平均池化层处理,得到句向量
3.根据权利要求1所述的面向循证医学领域的类别检测方法,其特征在于,所述将摘要中的每个句子进行Bi-LSTM处理,包括以下步骤:
通过公式(1)计算句子中每个单词的自注意力值:
将多个自注意力值进行拼接,得到句向量
其中,表示句子隐层向量矩阵的转置,表示权重的维度是1*da,其中超参数da,W∈Rda×2×u,u为隐层单元数,即LSTM的隐藏层维度,softmax()表示归一化函数,concat()表示向量拼接。
4.根据权利要求1所述的面向循证医学领域的类别检测方法,其特征在于,所述句向量由经过ELMo处理的句向量与经过Bi-LSTM处理的句向量连接而成,即:
其中,concat()表示向量拼接。
5.根据权利要求1所述的面向循证医学领域的类别检测方法,其特征在于,所述句子的标签概率为:
其中,y1:n为标签序列,yi表示分配给第i个句子的预测标签,为正确的标签序列,表示的得分定义为标签的预测概率与转移概率之和,score(y1:n)为y1:n的得分,定义为标签的预测概率与转移概率之和:
其中,yi表示分配给第i个句子的预测标签,T[i:j]定义为带有标签i的句子之后是带有标签j的句子的概率,n表示一个摘要中的句子数,i表示摘要中的第i个句子,表示第i个预测标签在上一层得到的预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910508791.1/1.html,转载请声明来源钻瓜专利网。





