[发明专利]一种结合序列生成和层级词表的医学概念自动编码方法有效
申请号: | 202110597714.5 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113033155B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 汤步洲;黄源航;熊英;陈清财 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/247;G06F40/295;G06F40/30 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 序列 生成 层级 词表 医学 概念 自动 编码 方法 | ||
1.一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述方法包括:
获取临床医疗文本,将所述临床医疗文本输入预设的编码器中,得到所述临床医疗文本的初始向量数据;
获取预先构建的层级词表数据,将所述层级词表数据输入预设的学习算法中,并获得所述层级词表的标准医学术语向量数据;
将所述临床医疗文本的初始向量数据和已经生成的所述标准医学术语向量数据输入预设的解码器中,依次生成若干个标准医学术语对应的编码数据,并根据所述编码数据形成所述临床医疗文本对应的标准医学术语序列数据;
所述获取预先构建的层级词表数据,将所述层级词表数据输入预设的学习算法中,并获得所述层级词表的标准医学术语向量数据包括:
获取术语词典数据中的标准医学术语数据的编码信息,根据所述编码信息将所述标准医学术语数据分为父节点和子节点;
获取所述父节点、所述子节点以及所述父节点与所述子节点之间的父子关系信息,根据所述父节点、所述子节点以及所述父节点与所述子节点之间的父子关系信息构建层级词表数据;
将所述层级词表数据输入预设的学习算法中,得到表示所述父节点、所述子节点以及所述父子关系信息的向量数据;
将表示所述父节点、所述子节点以及所述父子关系信息的向量数据作为所述层级词表的标准医学术语向量数据。
2.根据权利要求1所述的一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述获取临床医疗文本,将所述临床医疗文本输入预设的编码器中,得到所述临床医疗文本的初始向量数据包括:
将临床医疗文本输入词嵌入层,通过所述词嵌入层对所述临床医疗文本进行映射后得到映射数据;
将所述映射数据输入到编码器,获取所述编码器基于所述映射数据编码生成所述临床医疗文本的初始向量数据。
3.根据权利要求1所述的一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述编码信息包含字母段信息和数字段信息。
4.根据权利要求3所述的一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述获取术语词典数据中的标准医学术语数据的编码信息,根据所述编码信息将所述标准医学术语数据分为父节点和子节点包括:
将每一个标准医学术语数据作为一个节点;
将所有字母段信息的种类相同,且所述数字段信息预设顺序位之前的若干个数字相同的节点作为同一类节点;
在所述同一类节点中,将所述数字段信息最短的节点作为父节点,将除所述父节点之外的节点作为子节点。
5.根据权利要求1所述的一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述解码器包含有分类器,所述分类器中包含多个标准医学术语的标签,所述将所述临床医疗文本的初始向量数据和已经生成的所述标准医学术语向量数据输入预设的解码器中,依次生成若干个标准医学术语对应的编码数据,并根据所述编码数据形成所述临床医疗文本对应的标准医学术语序列数据包括:
获取由所述解码器输出的所有历史标准医学术语向量数据组成的序列数据;所述序列数据为当前时间步之前所述解码器输出的编码对应的标准医学术语向量数据;
通过所述分类器基于所述初始向量数据和所述序列数据,确定在所述临床医疗文本对应的当前时间步时,所述解码器输出的编码数据;重复这一过程,直到没有编码数据可以生成为止;
根据所述编码数据形成所述临床医疗文本对应的标准医学术语序列数据。
6.根据权利要求5所述的一种结合序列生成和层级词表的医学概念自动编码方法,其特征在于,所述分类器中包括概率函数,所述通过所述分类器基于所述初始向量数据和所述序列数据,确定在所述临床医疗文本对应的当前时间步时,所述解码器输出的编码数据,包括:
将所述初始向量数据与所述序列数据对应的向量数据进行融合,得到融合向量数据;
将所述融合向量数据输入所述概率函数中,获取所述概率函数基于所述融合向量数据生成的若干个可能的编码数据的概率值;
将所述概率值按照数值大小进行排序,并将概率值最大的编码数据作为当前时刻解码器输出的编码数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110597714.5/1.html,转载请声明来源钻瓜专利网。