LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完

内容摘要这可能是 LeCun 在 Meta 发表的最后几篇论文之一。这次,LeCun 为 JEPA 架构补上了关键的理论拼图。学习世界及其动态的可操控表征是人工智能的核心。联合嵌入预测架构(JEPAs)是实现这一目标的有前景的蓝图。其核心思想是:通

这可能是 LeCun 在 meta 发表的最后几篇论文之一。这次,LeCun 为 JEPA 架构补上了关键的理论拼图。

学习世界及其动态的可操控表征是人工智能的核心。联合嵌入预测架构(JEPAs)是实现这一目标的有前景的蓝图。其核心思想是:通过最大化语义相关视图(例如图像的不同变换或裁剪)的嵌入之间的一致性,来学习一个有组织且可操作的高维嵌入空间。

然而,当前的 JEPA 训练方法缺乏坚实的理论指导,导致研发过程临时且脆弱。它们面临一个共同的难题:表征崩溃(即所有输入都映射到相似的嵌入)。

为了缓解这种「捷径解」,当今的先进方法严重依赖各种复杂的「启发式方法」,例如:停止梯度、教师-学生网络(及精心调整的 EMA 调度)、非对称的视图生成、显式的归一化和白化层。

这些机制不仅使训练过程复杂、脆弱,而且对超参数、架构和数据分布非常敏感,并且缺乏坚实的理论保证。

LeCun 团队提出了一个关于 JEPAs 的全面理论,并将其具体化为 LeJEPA,这是一个精简、可扩展且有理论基础的训练目标。

论文标题:LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

论文地址:abs/2511.08544

团队首先提出了一个关键问题:JEPAs 的嵌入应遵循什么样的最优分布?

首先,团队证明了各向同性高斯分布是基础模型的最佳嵌入分布。在广泛的下游任务族中(无论使用线性还是非线性探针),该分布都能唯一地最小化下游预测风险。这一理论结果将 JEPA 的设计从依赖「启发式」的探索,转向了有目标的、基于理论的最优化。

基于这一理论,研究团队引入了一种新颖的分布匹配目标:概略各向同性高斯正则化(SIGReg)。

SIGReg 是一种新颖的目标,它通过随机投影和特征函数匹配来高效地强制嵌入服从理想的各向同性高斯分布。

它独特地结合了可证明的正确性与大规模计算效率:

理论上合理: 提供了统计保证和有界梯度。

计算上高效: 实现了线性(而非二次方)的时间和内存复杂度,并克服了高维嵌入中的「维度灾难」。

最终,通过将 JEPA 的预测目标与 SIGReg 相结合,LeJEPA 成为了一个通过构造就能消除表征崩溃的、具有统计最优性的 JEPA 解决方案。

这种有原则的理论设计直接带来了实践中的简洁性、鲁棒性和高性能。

告别启发式: 无需停止梯度、教师-学生网络、EMA 调度器或显式白化层。

极致简洁: 整个设计只有一个权衡超参数。

高效稳定: 具有线性的时间和内存复杂度,在不同超参数、架构(ResNets、ViTs、ConvNets 等)和领域中均保持高度稳定性。

易于实现: 其分布式训练友好型实现仅需约 50 行代码。

实验涵盖 10 多个数据集和 60 多种架构(规模接近 10 亿参数),LeJEPA 达到或超过了最先进的方法。例如,在 ImageNet-1K 上预训练并进行线性评估,LeJEPA(ViT-H/14)达到了 79% 的准确率。

更重要的是,LeJEPA 在特定领域的数据集(如 Galaxy10、Food101)上,直接进行领域内预训练的效果优于基于 DINOv2 的迁移学习。这表明,有原则的 SSL 可以解锁以往被认为在小型数据集上不切实际的领域内预训练。

从名字 LeJEPA 也能看出来,这篇论文对 LeCun 来说似乎有特别的意义,评论区的反响也很好。

所以,LeCun 的创业公司会叫 LeAGI 吗?

LeJEPA: 稳定且可扩展的实现

在确定了各向同性高斯分布是基础模型的理想嵌入分布,并引入了 SIGReg 之后,团队提出了完整的 LeJEPA 框架。

LeJEPA:SIGReg + 预测损失

SIGReg 损失。研究者选择(Epps–Pulley)检验,因为它具有可证明的有界性(定理 4)和可扩展性。其实现基本遵循方程,只是积分部分使用了求积近似(一种数值估算方法)来进行估计。

研究发现,即使节点数少至 17,简单的梯形求积法则也足够了(如图 20 所示)。另外,研究者利用被积函数的对称性来免费将节点数加倍(详见官方代码)。

另一方面,使用小批量(minibatch)会引入一个偏差,该偏差以

 的速率消失。

因此,使用(Epps–Pulley)得到的梯度带有一个显式的

偏差项。研究者发现这种偏差非常小,即使对于小至 16 的小批量也不是问题。无偏的替代方案(如 U-统计量去偏或样本分割)在本研究中未予探索。

预测损失。为了统一符号,该研究采用了 DINO 的设置,生成个局部视图(总共

个索引设为全局视图。若无局部视图,则

的前

个)。该设置将每个

个全局视图和

。预测损失由所有视图共同预测全局视图来计算:

其中

定义为全局视图的平均嵌入,从方程(6)到方程(7)的推导详见论文 B.6 节。

LeJEPA 损失。最终的总损失只是将上述预测损失与每个视图上的 SIGReg 结合起来,如:

总而言之,整个实现——除了常规的模型定义、优化器和数据加载器——在 PyTorch 中只需要几十行代码。由于该框架不依赖原型、停止梯度和教师-学生网络,因此非常简洁,只包含一个超参数,用于平衡预测项和各向同性高斯项之间的权衡。

(二级)与先前工作的关系

在展示实验之前,研究者最后讨论了 LeJEPA 和 SIGReg 目标与文献中现有框架的关系。

虽然目前没有在 JEPA 中使用这种切片和分布匹配的解决方案,但在生成模型和最优传输领域存在类似的流程,例如切片分数匹配和切片 Wasserstein 距离。

此外,当(Epps–Pulley)检验的积分被精确计算时,每个切片损失值在数学上接近于核 MMD 方法。

最后,研究指出,通过在 LeJEPA 中使用特定的检验(而非首选的 Epps–Pulley),可以在极限情况下恢复某些现有的 SSL 框架(如 VICReg)。然而,基于定理 3,研究者强烈反对这种设置,因为它会导致捷径解,这一现象在 VICReg 中已被观察到。

LeJEPA:实证验证

实验表明 LeJEPA:(i)在不同架构和数据集上都能可靠训练,(ii)为模型选择提供了信息丰富的训练损失,(iii)在小规模域内预训练上优于前沿视觉模型,(iv)在 ImageNet-1k 上成功扩展到近 10 亿参数,以及(v)无需显式监督即可学习丰富的语义分割特征。

LeJEPA 在不同超参数和架构上的稳定性

在标准超参数上的稳定性

研究者首先在 ImageNet-100 和 ImageNet-1K 上评估 LeJEPA。在 ImageNet-100 上,他们训练一个 ResNet-50,并改变视图数量和损失权重。性能在这两个维度上都保持稳定,因此推荐 = 0.05 作为一个稳健的默认值。

在 ImageNet-1K 上,研究者训练一个 ViT-Large/14,并探索了批量大小以及全局视图的数量。研究发现先前工作中常用的配置(

和局部

)能很好地迁移到 LeJEPA。值得注意的是,LeJEPA 在 ImageNet-1K 上使用小至 128 的批量大小即能达到有竞争力的性能,这表明其内存需求有所降低。

Epps-Pulley 超参数的稳定性

接下来研究检查了 LeJEPA 特有的超参数:SIGReg 的切片数量、(Epps–Pulley)检验的积分设置等。

结果显示,积分的具体设置(如积分域和求积点数)对性能影响极小。切片数量有适度影响——虽然更多的切片会略微提高性能,但即使 512 个切片也能产生有竞争力的结果。因此,研究者推荐了 17 个积分点、[-5, 5]的积分域和 1024 个切片作为起始点。

架构的稳定性

LeJEPA 相较于最近的方法(例如 IJEPA、DINOv2)的一个关键优势是其架构无关的设计。

为了验证这一点,研究者在 ImageNet-10 上预训练了来自 8 个不同族的约 50 种架构。所有模型都能够学习到高质量的表示,通过冻结主干进行线性探测,top 1 准确率达到了 91.5% 到 95%。

移除流行的启发式方法

LeJEPA 的可证明构造使其能够移除许多传统上用于防止坍塌的启发式方法。先前的工作表明,预测器和教师-学生架构主要用于防止坍塌。得益于 LeJEPA 的 SIGReg 损失,该框架可以同时移除预测器和教师-学生架构,而不会遭受坍塌(如表 4 所示)。

其次,最近的工作表明需要使用寄存器令牌来防止训练不稳定。表 1 的结果表明,这种不稳定性可能源于条件不良的训练目标。相反,LeJEPA 不需要寄存器令牌,无论有无它们都能实现稳定性能。

LeJEPA 的训练损失对下游性能具有信息指示性

SSL 预训练中的一个主要挑战是训练损失与下游性能的相关性很低。

相比之下,研究发现 LeJEPA 的训练损失为模型质量提供了有意义的信号。如图 10 所示,SIGReg 损失和预测损失与下游任务准确率之间存在清晰趋势。

更引人注目的是,组合训练损失(LeJEPA)与下游任务的准确率表现出非常高的相关性(斯皮尔曼相关性 约为 85%)。这意味着更低的训练损失可靠地指示了更好的下游性能。

研究者还发现,通过一个基于超参数

的简单缩放定律(公式 8),可以使这种相关性达到近 99%。LeJEPA 训练损失与模型质量之间的强一致性,使得无标签的 SSL 模型选择和交叉验证成为可能。

域内 LeJEPA 优于前沿模型的迁移学习

自监督学习的一个关键承诺是学习通用表示。然而,目前的前沿模型(如 DINOv2/v3、IJEPA)是在自然图像上预训练的,这迫使特定领域的从业者使用大量标签进行监督微调。

为了展示 LeJEPA 的多功能性,研究者建议直接在专业领域上进行预训练,而无需更改流程。研究者选择了 Galaxy10 数据集(一个星系形态分类任务)。该研究与最新的 DINOv2、DINOv3 和 IJEPA 进行了比较。

图 12 报告了线性探测和全量微调的 top 1 准确率。结果观察到,使用 LeJEPA 进行域内预训练,在这两项评估中均显著优于顶尖的前沿模型。

表 5 中的额外结果展示了 LeJEPA 即使在小至 1000 个样本的数据集上也能有效训练。

LeJEPA 在数据和模型上均具有可扩展性

研究者接着将 LeJEPA 应用于更大的预训练数据集(ImageNet-1k)和更大的主干网络,例如 ViT/Large(3 亿参数)和 ConvNextV2-Huge(6 亿参数),分别达到了 77.1% 和 78.5% 的在线线性探测准确率。

在迁移学习方面(表 2),该研究的基线是 IJEPA(ViT-Huge,6 亿参数)及其改进版 IJEPA + STOP。结果观察到,LeJEPA 尽管使用了更小的模型和更短的训练计划,其性能仍持续优于 IJEPA。

此外,该模型在 ViT-gigantic(18 亿参数)上的训练曲线(图 1)也显示出非常稳定和平滑,表明其优化景观稳定,无需仔细的超参数调整。

LeJEPA 表示中涌现的语义结构

成功的自监督学习的一个标志是,在没有显式监督的情况下涌现出具有语义意义的注意力模式。为了评估 LeJEPA 是否学习了这种结构,研究者将其学习到的表示的注意力图进行了可视化。继 DINO 之后,该研究对嵌入应用 PCA(主成分分析)并可视化第一个主成分,其显示出与物体边界和显著区域的清晰对应关系(图 14)。

此外,研究者们探索了这些注意力模式是否能够实现无监督视频分割。通过对 [CLS] 令牌的自注意力图进行阈值处理,获得了可以在没有训练标签的情况下跨帧跟踪物体的二值掩码。

如图 13 所示,LeJEPA 的注意力以卓越的时间一致性自然地将前景物体与背景分割开来,这表明学习到的表示同时捕捉了空间语义和时间结构。这种涌现的能力表明,LeJEPA 注重稳定性的目标并没有牺牲所学特征的语义丰富性。

更多技术细节请参见原论文。

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1