[发明专利]一种病症实体的抽取方法及装置在审
| 申请号: | 202010260839.4 | 申请日: | 2020-04-03 |
| 公开(公告)号: | CN113496121A | 公开(公告)日: | 2021-10-12 |
| 发明(设计)人: | 李长亮;王献 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;北京金山软件有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G16H10/60 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 病症 实体 抽取 方法 装置 | ||
1.一种病症实体的抽取方法,其特征在于,包括:
接收输入的描述语句,其中,所述描述语句包括至少一个分句;
将每个所述分句进行处理,得到与该分句对应的病症实体向量;
在医学词典中进行查找并确定与所述分句对应的病症实体向量对应的标准病症实体,其中,所述医学词典包括多个所述标准病症实体以及与每个所述标准病症实体对应的病症实体向量。
2.如权利要求1所述的方法,其特征在于,将每个所述分句进行处理,得到与该分句对应的病症实体向量,包括:
将所述分句进行切分,得到至少一个词单元;
对至少一个词单元进行选取得到目标词单元,并生成所述目标词单元对应的词向量;
将所述目标词单元对应的词向量进行处理,得到与该分句对应的病症实体向量。
3.如权利要求2所述的方法,其特征在于,对至少一个词单元进行选取得到目标词单元,包括:
将每个所述分句的全部词单元作为该分句的目标词单元。
4.如权利要求2所述的方法,其特征在于,对至少一个词单元进行选取得到目标词单元,包括:
根据所述分句的词单元的长度,将长度大于阈值的词单元作为该分句的目标词单元。
5.如权利要求2所述的方法,其特征在于,对至少一个词单元进行选取得到目标词单元,包括:
将至少一个词单元与停用词典中的停用词单元进行比较,确定待删减的词单元,其中,所述停用词典包括至少一个停用词单元;
基于所述待删减的词单元对所述至少一个词单元进行删减,得到所述目标词单元。
6.如权利要求2所述的方法,其特征在于,生成所述目标词单元对应的词向量,包括:
S02、将所述目标词单元输入至语言处理模型的嵌入层进行处理,得到每个目标词单元的嵌入向量,其中,所述语言处理模型包括依次连接的嵌入层以及n个编码层,n为正整数;
S04、将嵌入向量输入至语言处理模型的第1个编码层进行编码处理,得到第1个编码层的输出向量;
S06、将第i个编码层的输出向量输入至第i+1个编码层进行编码处理,得到第i+1个编码层的输出向量,其中,1≤i<n;
S08、将i自增1,判断i是否等于n,若是,执行步骤S10,若否,执行步骤S06;
S10、将第n个编码层的输出向量作为所述目标词单元对应的词向量。
7.如权利要求2所述的方法,其特征在于,将所述目标词单元对应的词向量进行处理,得到与该分句对应的病症实体向量,包括:
将所述目标词单元对应的词向量进行取均值,得到与该分句对应的病症实体向量。
8.如权利要求7所述的方法,其特征在于,将所述目标词单元对应的词向量进行取均值,得到与该分句对应的病症实体向量,包括:
提取多个所述词向量的对应维度的向量值并对多个所述词向量的对应维度的向量值取均值,得到各个维度的词向量均值;
将各个维度的词向量均值按顺序排列,得到与该分句对应的病症实体向量。
9.如权利要求1所述的方法,其特征在于,在医学词典中进行查找并确定与所述分句对应的病症实体向量对应的标准病症实体,包括:
将医学词典中的标准病症实体向量化,得到标准病症实体向量;
将所述分句对应的病症实体向量与所述标准病症实体向量进行相似度计算,确定与所述分句对应的病症实体向量相似度最高的所述标准病症实体向量;
确定与所述分句对应的病症实体向量相似度最高的所述标准病症实体向量对应的标准病症实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;北京金山软件有限公司,未经北京金山数字娱乐科技有限公司;北京金山软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010260839.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多层热压机移动自动卸板机
- 下一篇:POCT血细胞分析仪及试剂盒





