医学AI中的多实例学习
字数 1682
更新时间 2026-01-28 06:44:58

医学AI中的多实例学习

第一步:理解基本概念——“包”与“实例”
多实例学习是一种特殊的监督学习范式,特别适用于标注信息模糊或不完整的场景。在医学AI中,这非常常见。它的核心数据结构是“包”。一个“包”由多个“实例”组成,但整个“包”只有一个全局标签,而不是每个实例都有独立标签。

  • 实例:指数据的最小单元。例如,在一张包含多个细胞的病理图像中,每个细胞的图像块就是一个“实例”。
  • :由一组相关的实例集合而成。上例中,整张病理图像就是一个“包”。
  • 标签规则:多实例学习遵循一个关键假设:如果一个“包”被标记为阳性(例如,诊断为恶性肿瘤),那么该包中至少有一个实例是阳性的(例如,至少有一个细胞是癌细胞)。反之,如果一个“包”被标记为阴性(良性),那么该包中所有实例都被认为是阴性的。这与标准监督学习(每个样本都有明确标签)截然不同。

第二步:为何它在医学中至关重要——解决标注瓶颈与弱监督
医学数据标注成本极高,需要资深专家的时间和精力。对每一个细粒度单位(如每个细胞、每个像素)进行精确标注通常不现实。多实例学习完美地利用了“弱监督”信息——我们只知道整张影像或整个病例的宏观诊断结果,而不知道具体是哪个区域导致了该诊断。这种“包级”标签比“像素级”或“实例级”标签容易获取得多。它允许模型从这些“模糊”的标签中学习,并最终定位出关键的阳性实例(如病灶区域)。

第三步:核心学习机制——从“包”到“实例”的推断
模型的核心任务是学习一个分类函数,这个函数既要能对新的“包”进行正确分类,也最好能识别出包内的关键实例。其学习过程的关键在于如何处理包的表示和标签传播:

  1. 包表示的形成:模型首先需要将一个包含多个实例的“包”转换成一个固定长度的特征向量。常见策略包括:
    • 基于实例的方法:先对每个实例进行特征提取或分类,然后通过池化操作(如最大池化、平均池化)将包内所有实例的信息聚合起来。最大池化尤其常用,因为它直接对应“至少有一个阳性实例则包为阳性”的假设——只有得分最高的那个实例决定了包的标签。
    • 嵌入空间的方法:将整个包映射到一个低维的嵌入向量,然后基于这个嵌入向量进行分类。
  2. 注意力机制的引入(进阶):现代方法常引入注意力机制,让模型学习为包内的每个实例分配一个权重(注意力分数)。权重越高的实例,被认为对包标签的贡献越大。这样,模型的决策过程更具可解释性,可以清晰地“看到”模型关注了哪些区域(即潜在的关键实例)。

第四步:典型医学应用场景
多实例学习广泛应用于需要从全局标签中定位局部病灶的医学影像分析任务:

  1. 数字病理学:这是最经典的应用。一张全视野数字切片(WSI)是一个巨大的“包”,其中包含数百万个细胞(实例)。我们只有切片的诊断标签(如癌/非癌)。模型通过学习,不仅能对切片分类,还能高亮出最可能是癌细胞的区域。
  2. 医学影像分析(如CT、MRI):对于一张肺部CT扫描(包),我们可能只有“是否患有肺结节”或“是否患有癌症”的病例级标签,而没有每个结节的具体边界框。模型可以学习找出可疑的结节区域(实例)。
  3. 药物发现与基因组学:一个分子(包)可能由多个亚结构(实例)组成,我们只知道该分子是否有某种活性(标签)。在基因组学中,一个基因序列(包)与某种疾病相关,但可能只有某些关键片段(实例)是致病原因。

第五步:优势、挑战与未来方向

  • 优势
    • 有效利用弱监督标签,极大降低标注成本。
    • 符合许多医学诊断的实际数据标注模式。
    • 模型具有潜在的可解释性,能定位关键证据。
  • 挑战
    • 初始的“至少一个阳性”假设在复杂医学场景中可能过于简单(例如,可能需要多个实例的特定组合)。
    • 包内实例数量可能极多且大小不一(如病理切片),计算效率是挑战。
    • 如何设计更强大的包表示方法和更精细的实例关系建模仍是研究热点。
  • 未来方向:与Transformer等先进架构结合以更好地建模实例间关系;发展更灵活的标签假设;与主动学习结合,智能地建议需要专家进一步细标的关键实例;以及在多模态数据(影像+文本报告)上进行多实例学习。
 全屏