医学AI中的神经架构搜索
字数 2196
更新时间 2026-01-30 20:32:46

医学AI中的神经架构搜索

  1. 基础概念与动机
    神经架构搜索(Neural Architecture Search, NAS)是自动化机器学习(AutoML)的一个核心子领域,其目标是自动设计出针对特定任务和数据集性能最优的神经网络结构。在医学AI中,手动设计网络(如调整CNN层数、滤波器尺寸、连接方式等)极度依赖专家的经验和繁重的试错,且医学图像、信号、文本数据具有独特的模态特性与任务需求(如病灶分割的精确边界、多序列影像的融合、小样本学习)。NAS旨在自动化这一过程,通过算法探索巨大的架构空间,发现人类专家可能未曾考虑的高效、专用模型,从而降低应用门槛并提升模型性能。

  2. 搜索空间定义
    这是NAS的第一步,决定了算法可以探索的架构范围。在医学AI背景下,搜索空间通常包含:

    • 细胞级空间:搜索一个可重复堆叠的基本计算单元(细胞)。每个细胞是一个有向无环图,节点代表特征图,边代表操作(如3x3卷积、5x5深度可分离卷积、池化、恒等连接、空洞卷积等)。最终网络由预定义数量的这种细胞堆叠而成。这种方式在医学图像分类和分割中很常见。
    • 整体架构空间:直接搜索整个网络的宏观结构,如层数、每层的操作类型和参数。这可能更适合结构相对固定的任务,如基于时序生理信号的分类。
    • 多模态融合空间:针对医学多模态数据(如CT、MRI、病理图像与临床文本),搜索空间可包含用于各模态的子网络架构以及融合层的连接方式(早期融合、晚期融合、分层融合)。
      定义搜索空间需要在灵活性与可搜索性之间权衡,空间过大致使搜索困难,过小则可能遗漏最优解。
  3. 搜索策略
    这是NAS的核心,即采用何种算法在庞大的搜索空间中高效探索。主要策略包括:

    • 基于强化学习:使用一个控制器(通常是RNN)来采样生成子网络描述。子网络在训练数据上训练并获得验证集性能作为奖励,用于更新控制器策略,使其倾向于生成高性能架构。早期经典NASNet采用此方法。
    • 基于进化算法:将网络架构编码为“基因”。从一个种群开始,通过选择(保留高性能个体)、交叉(交换部分基因)、突变(随机改变部分基因)产生新一代,迭代进化。这种方法在搜索空间广阔时具有优势。
    • 基于梯度优化:引入连续松弛的权重共享机制,如DARTS。将离散的架构选择松弛为连续变量,将搜索问题转化为双层优化问题,通过梯度下降同时优化网络权重和架构参数。搜索效率高,是目前主流方法之一。
    • 基于性能预测器:训练一个代理模型(如回归器),根据架构编码预测其性能。首先采样并训练少量架构获取真实性能,用于训练预测器。随后,可用预测器快速评估大量未经训练的架构,筛选出最有潜力的进行全训练,极大加速搜索。
  4. 性能评估策略
    评估搜索过程中每个候选架构的性能是计算代价最高的部分。直接从头训练每个候选架构到收敛是不现实的。因此需要高效评估策略:

    • 权重共享:构建一个包含所有可能操作路径的超网络。在搜索时,候选架构是超网络的一个子模型,共享超网络的权重,只需进行前向传播和少量更新即可获得相对性能评估,大幅减少计算量(如ENAS方法)。
    • 低保真度评估:在数据子集、训练更少周期、使用更低分辨率图像或更小模型容量下进行评估,快速筛选出有希望的架构,再对少数最优候选进行全量评估。
    • 早停法:根据训练早期的性能趋势预测最终性能,提前终止表现不佳架构的训练。
  5. 在医学AI中的应用与挑战
    应用

    • 医学影像分析:自动搜索针对特定器官(如视网膜、皮肤)或病灶(肺结节、脑肿瘤)检测、分类、分割任务的最优2D/3D CNN架构。
    • 病理图像分析:搜索能有效处理超高分辨率WSI(全切片图像)的多尺度注意力架构。
    • 医疗时间序列:为心电图、脑电图、生命体征监测数据搜索高效的RNN或时序CNN架构。
    • 多模态与联合学习:自动设计融合影像、基因组学、电子病历文本的异质架构。
      挑战
    • 计算成本极高:即使采用高效策略,NAS仍需数百至数千GPU小时,对医疗研究机构是巨大负担。
    • 领域特定约束:医学模型常需满足低延迟(实时诊断)、小模型尺寸(移动部署)、高鲁棒性等约束,需将约束融入搜索目标。
    • 数据隐私与小样本:医学数据敏感且有限。基于权重共享的NAS可能在小型数据集上过拟合超网络,影响发现的架构泛化能力。联邦NAS开始探索在分布式数据上搜索而不共享原始数据。
    • 可重复性与公平比较:搜索过程随机性强,且最终发现的架构性能受训练细节影响大,导致结果可重复性差,不同研究间难以公平比较。
  6. 前沿发展与趋势

    • 可微分NAS的改进:解决DARTS等方法的稳定性问题(如架构参数优化与网络权重优化的耦合问题)和离散化误差,提出更鲁棒的优化公式。
    • 零样本/预测式NAS:旨在不进行任何任务特定训练的情况下,仅凭架构本身特性预测其性能,或通过在大规模数据集(如自然图像)上预训练的超网络/预测器,快速迁移到医学任务。
    • 硬件感知NAS:将目标部署硬件(如手机、嵌入式设备)的延迟、功耗、内存占用等指标直接作为搜索优化目标的一部分,生成即插即用的高效模型。
    • 神经架构变换:研究如何将一个在大型数据集上搜索得到的高性能架构,通过规则或学习的方法进行变换,以适应结构相似但数据规模较小的医学任务。
    • 与AutoML流程整合:将NAS与超参数优化、数据增强策略搜索等步骤结合,实现端到端的自动化机器学习流水线构建。
 全屏