[发明专利]一种基于医疗的神经网络和向量相似度匹配方法和装置在审
申请号: | 202211674458.6 | 申请日: | 2022-12-26 |
公开(公告)号: | CN116341545A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 欧锦华;李晓鹏 | 申请(专利权)人: | 广州启生信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06F16/35;G16H50/70 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510623 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 医疗 神经网络 向量 相似 匹配 方法 装置 | ||
本申请提供一种基于医疗的神经网络和向量相似度匹配方法和装置,包括:采用分类模型建立训练模型,并建立医学神经网络模型库;根据人工录入医学实体词,完成向量计算操作,获取向量集合库;根据向量集合库完成相似度计算,并由余弦相似性计算公式获取相似度结果;根据相似度结果集获取实体结果集。将向量cos相似度算法与实体词相似度神经网络模型相结合运用的方式,改进了现有的方案,既满足速度的要求,又保持了高准确性,以及容错性。
技术领域
本发明属于医疗和神经网络领域,尤其是涉及一种基于医疗的神经网络和向量相似度匹配方法和装置。
背景技术
现有技术的内容匹配算法,有以下三种方法:
(1)字符串匹配,此种方法也叫绝对匹配,即从字符串第一个字符到最后一个字符逐个校验,完全相等才称之为相等。
(2)向量匹配,此种方法一般采用大量文本语料训练出一个词向量模型,以此计算词条的向量。然后再通过相似度公式计算两者之间的距离,从而得到词条之间的相似度。
(3)神经网络计算词条相似度,此种方法一般采用大量先验数据对模型进行训练,从而使模型能够迁移学习计算出未知词条之间的相似度。
现有技术存在的问题:
(1)字符串匹配,无法满足意思相同但文本不同的词条,例如:“怀孕”和“妊娠”。
(2)向量匹配,能够满足意思相同但文本不同的词条,计算速度快,缺点是意思相反但上下文语境相似的词条也会被匹配到,例如:“甲亢”和“甲减”。
(3)神经网络计算词条相似度,缺点是计算速度慢,如果需要比对的词条数量巨大,不得不逐条或逐批输入神经网络计算,计算力受限于显卡内存的大小。
由于医疗领域专业词汇量大,神经网络检索缓慢,导致该领域搜索请求耗时时间过长,不能及时响应用户请求的问题。现需要解决在该领域的既能满足神经网络计算精准度要求,又能满足向量匹配的快速方法和装置。
发明内容
本实施例的目的在于提供一种基于医疗的神经网络和向量相似度匹配方法和装置,将向量cos相似度算法与实体词相似度神经网络模型相结合运用的方式,改进了现有的方案,既满足速度的要求,又保持了高准确性,以及容错性。
一种基于医疗的神经网络和向量相似度匹配方法,包括:
采用分类模型建立训练模型,并建立医学神经网络模型库;
根据人工录入医学实体词,完成向量计算操作,获取向量集合库;
根据向量集合库完成相似度计算,并由余弦相似性计算公式获取相似度结果;
根据相似度结果集获取实体结果集。
进一步的,分类模型为二分类模型。
进一步的,二分类模型由BERT模型库函数tokenizer训练样本数据。
进一步的,向量计算为BERT直接输出的向量维度,向量维度为[Ne,字数,768],由集合公式计算获得。
进一步的,集合公式为,Ve=[bert(ei)],其中i=0到Ne-1,Ve向量集合库。
进一步的,余弦相似性计算公式为,其中a和b是两个不同的实体向量,
a=(x1,x2,x3,…,xi),xi为实体向量a的第i维向量,
b=(y1,y2,y3,…,yi),yi为实体向量b的第i维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州启生信息技术有限公司,未经广州启生信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211674458.6/2.html,转载请声明来源钻瓜专利网。