[发明专利]模型的数据域扩张方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202110342793.5 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112966821A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王杰;赵建春;田凯彬;丁大勇 | 申请(专利权)人: | 北京致远慧图科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06T7/00 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 代峰;谷轶楠 |
地址: | 100872 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 数据 扩张 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明实施例公开了一种模型的数据域扩张方法、装置、电子设备及计算机可读存储介质。其中,该方法包括:使用第一数据域的第一数据集对人工智能模型进行训练,得到针对第一数据域的第一已训练模型;使用第一数据域和第二数据域的第二数据集进行基于域适应的模型迁移,得到适应于第二数据域的第二已训练模型;将所述第一已训练模型和所述第二已训练模型同时作为教师模型进行知识蒸馏,得到域扩张后的第三模型。本发明实施例的技术方案可获得在多个域中均具有良好性能的深度模型,具有更好的泛化能力。
技术领域
本发明涉及人工智能技术领域,具体涉及一种模型的数据域扩张方法、装置、电子设备及计算机可读存储介质。
背景技术
利用以深度学习为代表的人工智能(AI)技术进行医学影像分类是目前计算机辅助诊断和筛查研究中的重点内容。深度学习已经在很多医学影像中有了应用,如利用眼底彩照进行糖尿病性视网膜病变的筛查,通过脑部CT进行脑肿瘤的分割,在胸片中检测肺结节,检查病理切片中是否含有肿瘤细胞等。在很多医学图像分析的任务上,AI模型可以表现出与人类专家相当的水平。
但AI模型的有效性很大程度上取决于数据的有效性。一般来说,数据上的分布称为域,来源不同的数据往往具有不同的分布,即不同数据域可能会有极大的差异。由于医学成像设备在品牌、型号、扫描模式、成像条件等方面的差异,即使是对于相同类型的病变,来自不同设备的医学影像样本往往呈现出明显视觉差异。这种视觉差异使得样本在特征空间的发布产生偏差,进一步表现为在同源数据上表现良好的图像分类模型在异源数据上识别准确率明显下降,因而要得到在各个环境下均有效的AI模型可能需要采集各个数据源(不同设备)的标注数据,导致收集来自各种设备的有标注数据成本极高,很难直接训练一个适用于各种设备的AI模型。
现有技术一般通过模型迁移的方式来尝试提升AI模型对于来自不同设备的样本的适应能力,降低数据标注成本。通常将能够获得的有标注的数据称为源域,不能获得标注的数据称为目标域;例如,采集自某设备并标注了的数据称为源域数据,而不能获得标注的来自其他型号设备的数据称作目标域数据。目前将AI模型从源域迁移到目标域主要是通过域适应(domain adaptation)技术,利用有标注的源域数据和未标注的目标域数据,最小化源域和目标域数据在特征空间上的分布来进行迁移。
然而,现有的域适应技术只关注于目标域上的性能,在提升目标域上的性能的同时往往会带来源域性能的下降,难以达到源域和目标域综合性能最优。而在实际应用中,深度模型需要处理来自不同域的数据,因而希望在各个域上模型性能均尽可能高。因此,如何将深度模型在不影响源域性能的情况下扩展到更多的域上,来达到综合性能最优,是需要解决的技术问题。
发明内容
针对现有技术中的上述技术问题,本发明实施例提出了一种模型的数据域扩张方法、装置、电子设备及计算机可读存储介质,以解决AI模型的数据域扩张时导致的源域性能下降的问题。
本发明实施例的第一方面提供了一种模型的数据域扩张方法,包括:
使用第一数据域的第一数据集对人工智能模型进行训练,得到针对第一数据域的第一已训练模型;
使用第一数据域和第二数据域的第二数据集进行基于域适应的模型迁移,得到适应于第二数据域的第二已训练模型;
将所述第一已训练模型和所述第二已训练模型同时作为教师模型进行知识蒸馏,得到域扩张后的第三模型。
在一些实施例中,所述进行知识蒸馏包括:
以所述第三模型作为学生模型进行机器学习,当输入数据是第一数据域中数据时,所述第三模型学习第一已训练模型的输出;当输入数据是第二数据域中数据时,所述第三模型学习第二已训练模型的输出。
在一些实施例中,所述第一数据集中的数据为来自第一数据域且带有标注的数据;所述第二数据集中的数据为来自第一数据域且带有标注的数据和来自第二数据域不带标注或带有少量标注的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京致远慧图科技有限公司,未经北京致远慧图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110342793.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种干烧报警装置
- 下一篇:一种基于雾计算的车载下地列车运行控制系统及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置