网站建设台州系统优化的约束条件-河源市网站建设公司-Seo优化

网站建设台州,系统优化的约束条件,软件公司起名大全,logo设计公司南京原问题#xff1a;LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA#xff0c;有哪些信息值得关注#xff1f;大语言模型#xff08;LLM#xff09;是目前 AI 领域的显学#xff0c;相比之下#xff0c;LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJE…原问题LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA有哪些信息值得关注大语言模型LLM是目前 AI 领域的显学相比之下LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJEPA 论文是对 JEPA 的一个改进考虑到 JEPA 本身了解的人可能并不多直接解读 LeJEPA 受众会很窄这篇文章就尝试用一个更科普的视角梳理一下 JEPA 和 LeJEPA 思想的来龙去脉并和大家相对熟悉的 LLM 做一些对比。从 NLP 领域的自监督学习SSL说起所谓自监督学习核心思想是从数据中获取监督信息核心是利用数据自身结构或信息来生成伪标签pseudo-labels避免了监督学习对人工标注的依赖。NLP 领域的自监督学习典型的思路有「预测下一词」NTP和「掩码词预测」MLMGPT预测下一个词可以理解为「文章接龙」给它我大意了没有__它需要预测闪。BERT掩码词预测可以理解为「完形填空」给它我 [MASK] 了 [MASK] 闪它需要预测大意和没有。共同的思想是让模型用一部分数据去预测另一部分数据。为了能正确预测模型「被迫」学会了语法、语义和上下文。这个范式造就了当前炙手可热的 LLM 领域。在计算机视觉CV领域科学家们也一直在探索 SSL 的路径。我们来介绍其中的三个主要的分支以及其思想的来龙去脉。分支一对比学习SimCLR 代表的对比学习 (Contrastive Learning)家族走了一条和「完形填空」不同的路。它的哲学是我不需要知道「这是什么」我只需要知道「这两张图是不是一回事」。举个例子拿一张「猫」的照片锚点。对它进行两次随机 P 图比如一次裁剪变色一次旋转模糊。这两张 P 过的图我们叫它正样本因为它们本质上还是那只猫。再从数据集中随机拿一堆其他照片比如狗、车、房子。这些叫负样本。训练目标强迫模型编码器在抽象的「特征空间」里把两个「正样本」的特征向量拉得越近越好同时把所有「负样本」的特征向量推得越远越好。这完全是 CV 领域「土生土长」的 SSL 思想。它不依赖「预测」而是依赖相似性和不变性Invariance。模型被迫学会忽略那些 P 图带来的「表面差异」颜色、角度去捕捉「猫」这个不变的核心语义。和 LLM 的核心区别在于LLM 是在「预测」一个具体的内容下一个词。SimCLR 是在「对比」一个抽象的关系A 和 B 相似A 和 C 不相似。分支二MAE掩码自编码器MAE 是何恺明的杰作它代表了生成式/掩码式 (Masked Modeling)学习。它的哲学是如果你能把这幅图的 75% 都画出来你一定懂了这幅图。这是对 NLP 领域中 BERT 思想的致敬。BERT 遮住 15% 的单词去预测而 MAE 遮住了图像的 75% 去预测这是因为图像包含信息的冗余度更高。就好像在做拼图游戏把一张图比如一只狗切成 100 块小拼图。随机扔掉 75 块。只把剩下的 25 块连同它们的位置信息交给模型编码器。训练目标模型必须在像素级别上把那 75 块被扔掉的拼图一模一样地画重建出来。为了能「凭空」画出狗的耳朵、身体和尾巴模型必须从那 25% 的碎片中学到关于「狗」这个物体的「整体概念」和「结构知识」。它被迫学到了高级的语义信息。分支三JEPA联合嵌入预测架构这是今天的主角。LeCun 提出的 JEPA。试图融合前两种思想的优点并摒弃它们的缺点。SimCLR 的缺点太依赖「P 图」数据增强。我们必须手动告诉模型「旋转和裁剪」是不重要的。但万一很重要呢它天生更适合做「分类」而不是理解这个动态的世界。MAE 的缺点强迫模型去预测每一个像素比如狗身上的毛的精确颜色和纹理是没必要的而且非常难。人类也不会去记这些细节。JEPA 的哲学是我们应该像 MAE 一样做「完形填空」掩码但我们不应该预测「像素」太低级而应该像 SimCLR 一样在「抽象特征空间」里进行预测。同样拿一张图分成「上下文」Context模型能看到的和「目标」Target模型看不到的被遮挡的。关键区别JEPA 不要求模型去「画出」目标的像素。训练目标JEPA 要求模型根据「上下文」的特征去预测「目标」的「抽象特征」Representation。实现细节它通过一个「慢速更新」的目标编码器来获得「目标」的真实特征。总结一下这几种分支SimCLR (对比):在 CV 领域开创了「对比相似性」的道路。核心是「不变性」。MAE (掩码):成功地将 LLMBERT的「完形填空」思想搬到 CV。核心是「重建」。JEPA (预测抽象特征):吸收了MAE 的「掩码 - 预测」框架认为这比对比学习更通用。SimCLR 的「特征空间」思想认为预测抽象特征比预测像素更高效、更智能。为什么 LeCun 认为 JEPA 更接近「世界模型」JEPA 被 LeCun 认为是通向「世界模型」World Model的更优路径因为它鼓励模型去学习这个世界的抽象规律而不是去记忆那些无关紧要的像素细节。对比一下本文提到的这几种范式的主要特点方法预测什么保留信息学到的结构世界模型潜力SimCLR不预测只对比丢信息不变性最弱MAE像素太多细节纹理、局部结构⚠️ 弱LLMtoken语言压缩语言统计⚠️ 中但偏离世界JEPA抽象表征保留关键变量世界状态/因果/物体/动态✅ 强目标就是世界模型JEPA 的潜在问题所有不使用「负样本」像 SimCLR 那样的 SSL 方法包括 JEPA都有一个表征坍塌 (Representation Collapse)的问题。具体来说模型的目标是「预测」目标块的特征。它可能很快就发现一个完美的作弊方法我编码器不管你给我什么图片猫、狗、车我一律输出0或者任何一个固定的常数。这样一来我的上下文特征是0我要预测的目标特征也是0。预测0去匹配0我的预测损失L2 Loss永远是零完美也就是所有的输入都被压扁Collapse到了空间中的同一个点一个常数解。这个模型学到了一个完美的损失但它什么也没学到它的表征是完全无用的。通常大家包括 I-JEPA、BYOL、MoCo 等是怎么「逼」模型不偷懒的呢他们用的是一系列复杂的、像「炼丹」一样的启发式技巧 (Heuristics)。比如 Teacher-Student 网络 Stop-Gradient。打个比方我们不让模型学生自己预测自己这太容易作弊了。我们复制一个学生的副本叫教师。学生的任务是预测教师的输出。Stop-Gradient我们规定教师的输出是固定的梯度不能传回给教师。好比教师给学生划重点学生不能反过来质疑或改变老师的答案。EMA 动量更新教师不是一成不变的它会非常缓慢地用「动量」复制学生的最新参数。好比教师在学生期末考后才会慢慢更新自己的教学大纲。这种「非对称」结构打破了「自己预测自己」的循环。学生编码器必须不断追赶一个「缓慢变化」且「无法被它直接控制」的目标教师。这使得「全部输出 0」这个捷径不再有效。但这种做法的缺点是整个训练过程变得非常脆弱。你需要精心调整教师更新的「动量」比如 0.999 还是 0.9995、需要 Stop-Gradient 这种奇怪操作、需要复杂的超参数调度。它能用但我们不知道它为什么能用得这么好而且缺乏坚实的理论基础。LeJEPA 的改进LeCun 团队说我们受够了这种炼丹式的防守。与其被动地防止坍塌我们为什么不主动地去定义一个「好」的表征空间应该是什么样子关于什么是好的表示空间LeJEPA 的答案是为了在未来所有未知的下游任务上都表现最好这个空间必须是一个各向同性高斯分布 (Isotropic Gaussian)。我们略去理论证明简单理解一下「各向同性高斯分布」这个抽象的概念表征坍塌 (Collapse)所有数据都被拍扁在空间的一个点或一个低维平面上。信息丢失了。各向异性 (Anisotropic)数据在某些方向上被拉得很长但在另一些方向上被压得很扁。信息有偏见它过度放大了某些特征。各向同性高斯分布 (LeJEPA 的目标)像个「棉花糖」一样数据均匀、蓬松地分布在所有方向上没有偏见信息量最大。有了理论目标之后怎么在训练中「检查」你那几千维的嵌入空间符合我们的预期呢这就是「维度灾难」问题。LeJEPA 的方案是使用 SIGReg 这个工具我不需要检查整个棉花糖而是用一个统计工具从上千个随机角度投影去切片Slicing这个棉花糖。核心原理是 Cramér-Wold 定理如果每一个角度切下来的一维切片1D projection都看起来像一个标准的一维高斯分布正态分布那么整个高维的棉花糖必定是那个「完美的各向同性高斯分布。SIGReg 的具体步骤随机产生 1024 个「切片方向」。把一批batch数据沿着这 1024 个方向「压扁」成 1024 组一维数据。用一个稳定可微的统计检验Epps-Pulley来计算这 1024 组数据有多像正态分布。这个「不像的程度」就是SIGReg 损失。现在LeJEPA 的最终损失函数就变成了总损失预测损失损失总结梳理自监督学习在 NLP 与 CV 的三条主线NLP 的预测范式GPT/BERT、CV 的对比学习SimCLR与掩码重建MAE指出前者依赖相似性不变性、后者受像素级重建牵制。JEPA 的核心是沿用掩码 - 预测框架但把预测目标从像素提升为抽象表征用上下文表征去预测被遮挡区域的表征以更贴近世界建模所需的高层变量与动态规律但无负样本方法容易表征坍塌常依赖 Teacher-Student、EMA、Stop-Grad 等启发式稳定训练。LeJEPA 提出以 SIGReg 显式约束表征几何通过随机投影和正态性检验让嵌入接近各向同性高斯从而在不丢关键信息的前提下避免坍塌并与预测损失联合优化。总体看JEPA/LeJEPA 试图在「少依赖增强、少卷入像素细节、强调抽象可预测性」的方向上为通向通用世界模型提供更稳健与高效的自监督路线。

网站建设台州系统优化的约束条件

网站建设费用预算wordpress顶部菜单

wordpress调用post搜狗网站优化软件

做企业网站哪家强顺德高端网站设计

杭州兼职网站建设企业信息查询网站查询

jsp网站服务建设开题报告dw中旅游网站怎么做

网站内页跳转wap双流区规划局建设局网站

网站建设台州系统优化的约束条件

网站建设费用预算wordpress顶部菜单

wordpress调用post搜狗网站优化软件

做企业网站哪家强顺德高端网站设计

杭州 兼职 网站建设企业信息查询网站查询

jsp网站服务建设开题报告dw中旅游网站怎么做

网站内页跳转wap双流区规划局建设局网站

杭州兼职网站建设企业信息查询网站查询