搞笑视频素材网站免费seo技术培训班-河源市网站建设公司-Seo优化

搞笑视频素材网站免费,seo技术培训班,企业模板,传媒公司网站模板随着2025年的日历翻过最后一页#xff0c;AI 领域再次证明了预测未来的难度。在这一年#xff0c;Scaling Law 并没有失效#xff0c;但它的战场已经转移#xff1a;从单纯的参数堆叠转向了推理侧的强化。DeepSeek R1 的横空出世#xff0c;不仅打破了专有模型的神话AI 领域再次证明了预测未来的难度。在这一年Scaling Law 并没有失效但它的战场已经转移从单纯的参数堆叠转向了推理侧的强化。DeepSeek R1 的横空出世不仅打破了专有模型的神话更让 RLVR 和 GRPO 算法成为了年度技术风向标。与此同时我们在架构上看到了 MoE 与高效注意力机制的收敛也在行业中目睹了「极限刷榜」带来的评估困境。著名 AI 教育家与研究员 Sebastian Raschka 在他今年的年度总结中以其一贯的「硬核工程视角」对 2025 年进行了全面复盘。从 DeepSeek 的成本经济学到推理模型的算法细节从工具使用的演进到 AI 辅助编程的真实体验Raschka 不仅梳理了技术脉络还反思了人与 AI 的协作边界。以下是 Sebastian Raschka 的博客原文https://magazine.sebastianraschka.com/p/state-of-llms-2025随着 2025 年接近尾声我想回顾一下大语言模型LLM在本年度的一些最重要进展反思现存的局限性和未解难题并分享一些关于未来的想法。正如我每年常说的那样2025 年对于 LLM 和 AI 来说又是充满变数的一年而且今年没有迹象表明这种进步正在饱和或放缓。1、推理之年RLVR 与 GRPO我想探讨的有趣话题很多让我们按时间顺序从 2025 年 1 月开始说起。Scaling 仍然有效但它并没有真正改变 LLM 在实际应用中的表现或感觉唯一的例外是 OpenAI 刚发布的 o1它增加了推理轨迹。因此当 DeepSeek 在 2025 年 1 月发布 R1 论文展示了类似推理的行为可以通过强化学习开发出来时这意义非凡。在 LLM 的语境下推理意味着模型会解释其答案而这种解释本身通常会带来答案准确性的提升。图 1一个简短的回答和一个包含中间步骤的更长的回答后者通常是推理模型生成的。1.1 DeepSeek 时刻DeepSeek R1 因各种原因备受关注首先DeepSeek R1 是作为开放权重模型发布的其表现非常出色足以媲美当时最好的专有模型如 ChatGPT, Gemini 等。其次DeepSeek R1 的论文促使许多人尤其是投资者和记者重新审视 2024 年 12 月发布的 DeepSeek V3 论文。这导致了一个修正后的结论虽然训练最先进的模型仍然昂贵但其成本可能比之前假设的低一个数量级估计更接近 500 万美元而不是 5000 万或 5 亿美元。图 2来自 DeepSeek V3 论文的表格估计训练 6710 亿参数 DeepSeek V3 模型的成本。DeepSeek R1 的补充材料估计在 DeepSeek V3 基础上训练 R1 模型的成本仅需额外的 29.4 万美元这再次远低于所有人的预期。图 3来自 DeepSeek R1 论文补充材料的表格估计在 DeepSeek V3 基础上训练 R1 模型的成本。当然关于 500 万美元的估算有许多注意事项。例如它仅涵盖了最终模型运行的算力信用成本并未计入研究人员的薪水以及与超参数调整和实验相关的其他开发成本。第三也是最有趣的一点该论文提出了带有可验证奖励的强化学习 (RLVR) 配合 GRPO 算法作为一种新的或至少是改进的算法方法用于开发所谓的推理模型并在后训练阶段改进 LLM。图 4强化学习应用的广泛概述及其时机。在这一概述中我跳过了许多细节但有兴趣的读者可以在我的《LLMs 推理的强化学习现状》一文中内容。在此之前像监督指令微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 这样的后训练方法它们仍然是训练流程的重要组成部分一直受限于昂贵的书面回复或偏好标签。当然人们也可以用其他 LLM 合成生成这些数据但这有点像「先有鸡还是先有蛋」的问题。DeepSeek R1 和 RLVR 的重要性在于它们允许我们在大量数据上对 LLM 进行后训练这使它们成为通过在后训练期间扩展算力来改进和解锁能力的绝佳候选者假设有可用的算力预算。RLVR 中的 V 代表「可验证」意味着我们可以使用确定性方法来分配正确性标签而这些标签足以让 LLM 学习复杂的问题解决能力。典型的类别是数学和代码但也有可能将此想法扩展到其他领域。图5可验证奖励的一个简单示例。我不想在这里过于纠结技术细节因为我想在这篇年度回顾文章中涵盖其他方面。关于推理 LLM 和 RLVR完全可以写整篇文章或整本书。例如如果您有兴趣了解更多可以查看我之前的文章。https://magazine.sebastianraschka.com/p/understanding-reasoning-llmshttps://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training综上所述结论是今年的 LLM 发展本质上是由使用 RLVR 和 GRPO 的推理模型主导的。基本上继 DeepSeek R1 之后每一个主要的开放权重或专有 LLM 开发商都发布了其模型的推理通常称为「思考/Thinking」变体。1.2 LLM 关注重点如果我要简洁地总结每一年 LLM 开发的关注重点除了单纯扩展架构和预训练算力之外我的列表会是这样的2022: RLHF PPO2023: LoRA SFT2024: 中期训练 (Mid-Training)2025: RLVR GRPO预训练仍然是一切的必要基础。除此之外RLHF通过 PPO 算法当然是早在 2022 年带来最初 ChatGPT 模型的功臣。在 2023 年重点大量集中在 LoRA 和类 LoRA 的参数高效微调技术上用于训练小型自定义 LLM。图 6近年来专有和开源权重 LLM 开发的一些关注领域。请注意这是累积性的意味着例如 RLHF PPO 仍然相关且被使用。然而它已不再是讨论的热点话题。接着在 2024 年所有主要实验室开始通过关注合成数据、优化数据混合、使用特定领域数据以及增加专门的长上下文训练阶段使其预训练流程更加复杂。我在当时的 2024 年文章中总结了这些不同的方法当时我将这些技术归类为预训练因为「中期训练」这个术语当时还没被创造出来当时我认为这些是预训练技术因为它们使用相同的预训练算法和目标。今天这些紧随常规通用数据预训练之后的、稍微更专业化的预训练阶段通常被称为「中期训练」作为常规预训练和包括 SFT、RLHF 以及现在的 RLVR 在内的后训练之间的桥梁。那么你可能会问接下来是什么我认为明年我们会看到对 RLVR 的更多关注。目前RLVR 主要应用于数学和代码领域。下一个合乎逻辑的步骤是不仅使用最终答案的正确性作为奖励信号还要在 RLVR 训练期间评判 LLM 的解释。这在过去多年里一直以「过程奖励模型」的研究标签存在。然而它尚未取得超级成功。例如引用 DeepSeek R1 论文4.2. 不成功的尝试 […] 总之虽然 PRM 展示了良好的能力来对模型生成的前 N 个响应进行重新排序或辅助引导搜索 (Snell et al., 2024)但在我们的实验中与其在大规模强化学习过程中引入的额外计算开销相比其优势是有限的。然而看看上个月发布的最新 DeepSeekMath-V2 论文我在之前的文章《从 DeepSeek V3 到 V3.2架构、稀疏注意力和 RL 更新》中讨论过我认为未来我们会看到更多将「解释评分」作为训练信号的做法。https://sebastianraschka.com/blog/2025/technical-deepseek.html目前对解释进行评分的方法涉及第二个 LLM。这引出了我看到的 RLVR 的另一个方向扩展到数学和代码以外的其他领域。所以如果你今天问我如果不展望 2026 年和 2027 年会看到什么我会说2026: RLVR 的扩展和更多的推理时扩展2027: 持续学习除了上述的 RLVR 扩展我认为 2026 年将会有更多关注点放在推理时扩展上。推理时扩展意味着我们在训练后让 LLM 生成答案时花费更多的时间和金钱但其效果非常显著。推理扩展并不是一个新的范式LLM 平台已经在底层使用了某些技术。这是延迟、成本和响应准确性之间的权衡。然而在某些应用中准确性比延迟和成本更重要极端的推理扩展完全是值得的。例如正如最近的 DeepSeekV2-Math 论文所示它将模型在具有挑战性的数学竞赛基准测试中的表现推向了金牌水平。图 7两种推理时扩展方法的结合自一致性与自精炼。额外的自精炼迭代可以提高准确性。该图来自 DeepSeekMath-V2 论文。自一致性与自精炼在《从零构建推理模型》一书的第 4 章和第 5 章中有详细说明。今年同事之间也有很多关于持续学习的讨论。简而言之持续学习是指在不从头开始重新训练的情况下在数据或知识上训练模型。这并非新想法我也好奇为什么今年它被提及这么多次因为目前在持续学习方面并没有任何新的或实质性的突破。持续学习的挑战在于灾难性遗忘正如持续预训练的实验所示学习新知识意味着 LLM 在某种程度上正在遗忘旧知识。不过既然这看起来是一个如此热门的话题我确实期望在未来几年在最小化灾难性遗忘和使持续学习方法开发成为重要进展方面取得更多进步。2、GRPO年度研究宠儿在昂贵的 LLM 时代学术研究近年来一直颇具挑战性。当然尽管或者正因为预算较少学术界仍然可以做出重要的发现并成为主流和 LLM 进步及突破的关键支柱。近年来的流行例子包括 LoRA2021 年的大型语言模型低秩适应及其相关的参数高效微调方法。图 8基于代码的 LoRA 教程介绍另一个是 DPO直接偏好优化你的语言模型秘密地是一个奖励模型及其相关的无奖励模型对齐方法作为基于人类反馈的强化学习的替代方案。图 9基于代码的 DPO 教程介绍在我的圈子里今年的研究亮点是 GRPO。虽然它是在 DeepSeek R1 论文中介绍的而非源自学术界但它仍然让研究人员度过了令人兴奋的一年RLVR 和 GRPO 在概念上都很有趣而且根据规模不同进行实验的成本并不令人望而却步。因此今年我在 LLM 研究文献中看到了许多对 GRPO 的数学改进来自公司和学术研究人员这些后来被采纳进了最先进 LLM 的训练流程中。例如其中包括以下改进Olmo 3零梯度信号过滤 (DAPO by Yu et al., 2025)主动采样 (DAPO by Yu et al., 2025)Token 级损失 (DAPO by Yu et al., 2025)无 KL 损失 (DAPO by Yu et al., 2025 和 Dr. GRPO by Liu et al., 2025)Clip higher (DAPO by Yu et al., 2025)截断重要性采样 (Yao et al., 2025)无标准差归一化 (Dr. GRPO by Liu et al., 2025)DeepSeek V3.2带有特定领域 KL 强度的 KL 调优数学领域为零重新加权的 KLOff-policy 序列掩码保留 top-p / top-k 的采样掩码保留原始 GRPO 优势归一化我可以确认这些 GRPO 的技巧或修改在实践中具有巨大的影响。例如采用了其中一些或多项修改后糟糕的更新不再破坏我的训练运行我也不再需要定期重新加载检查点。即便是非常短的运行我在采用这些技巧时也观察到了巨大的收益图 10我从零开始的 GRPO 训练代码部分结果该代码可在 GitHub 上获取无论如何如果你想尝试一下我在「从头构建推理模型」的代码库中有一个原生 GRPO 脚本。我很快会添加更多包含相应修改的消融研究。3、LLM 架构岔路口说到 LLM 架构最先进的模型仍然使用老式的解码器风格 Transformer。然而今年开放权重 LLM 或多或少都收敛于使用混合专家 (MoE) 层以及至少一种「效率调整」的注意力机制分组查询注意力、滑动窗口注意力或多头潜在注意力。除了这些相当标准的 LLM 架构外我们还看到了针对注意力机制的更激进的效率调整旨在随序列长度线性扩展。这方面的例子包括 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets以及 NVIDIA Nemotron 3 中的 Mamba-2 层。无论如何我不想在这里深入太多细节因为如果您想了解更多我有一篇完整的 1.3 万字且最近更新的文章专门讨论这些架构大型 LLM 架构比较https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison图 11大型 LLM 架构对比我的预测是我们将继续基于 Transformer 架构构建至少几年至少在最先进的建模性能方面是这样。同时我确实认为我们会看到越来越多像 Gated DeltaNet 和 Mamba 层这样的效率和工程调整因为在 LLM 训练、部署和使用的规模下从财务角度来看这对那些仍在为服务 LLM 烧钱的公司来说是有意义的。这并不意味着没有其他替代方案。正如我在《超越标准 LLM》中所写文本扩散模型是一种有趣的方法。目前它们属于实验性研究模型类别但 Google 分享说他们将发布 Gemini Diffusion 模型。它在建模质量上不会与其最先进的产品相抗衡但对于低延迟要求的任务如代码补全它将非常快且具吸引力。此外两周前开放权重的 LLaDA 2.0 模型发布了。其中最大的一个拥有 1000 亿参数是迄今为止最大的文本扩散模型与 Qwen3 30B 相当。是的它并没有推动整体的最先进水平但在扩散模型领域仍是一个值得注意的版本。4、这也是推理扩展和工具使用的一年通过扩展训练数据和架构来改进 LLM 是一个既定公式且仍然持续奏效。然而特别是在今年这已不再是「唯一」足够的秘诀。我们在 GPT 4.52025 年 2 月上看到了这一点据传它比 GPT 4以及后来发布的 GPT 5大得多但单纯的Scaling 通常不是最明智的前进方式。GPT 4.5 的能力可能比 GPT 4 更好但增加的训练预算被认为是「性价比低」。相反更好的训练流程更加关注中期和后训练和推理扩展推动了今年的大部分进步。例如如前所述在谈论达到金牌级数学表现的 DeepSeekMath-V2 时推理扩展是我们可以利用的杠杆之一让 LLM 按需解决极其复杂的任务GPT Heavy Thinking or Pro 是其他例子由于高延迟和成本将这些用于所有事情是没有意义的但在某些例子中如具有挑战性的数学或编码问题高强度的推理扩展是有意义的。另一个重大改进来自以工具使用为核心的 LLM 训练。如您所知幻觉是 LLM 最大的问题之一。可以说幻觉率一直在改善我认为这很大程度上归功于上述的工具使用。例如当被问及谁赢得了 1998 年 FIFA 世界杯时LLM 不再尝试死记硬背而是可以通过工具使用传统的搜索引擎并从该主题的可信网站例如本例中的 FIFA 官方网站选择和抓取此信息。数学问题也是如此使用计算器 API 等等。例如OpenAI 的 gpt-oss 模型是今年发布的早期开放权重模型之一其开发时就特别考虑了工具使用。图 12来自 gpt-oss 模型卡片论文的注释表格.遗憾的是开源生态系统尚未完全赶上许多如果不是大多数工具仍然默认在非工具使用模式下运行这些 LLM。一个原因是这是一个较新的、不断发展的范式工具需要适应。另一个原因也是这是一个更难解决的问题出于安全考虑给予 LLM 无限制的工具使用访问权限可能会带来潜在的安全风险或对系统造成其他形式的破坏。我认为应该始终问的一个明智问题是你会信任一个新实习生拥有这种级别的系统访问权限来做这件事吗我确实认为在未来几年当在本地使用 LLM 时启用和允许工具使用将变得越来越普遍。5、年度词汇Benchmaxxing如果我必须选一个词或趋势来描述今年的 LLM 发展那将是「极限刷榜 (Benchmaxxing)」。在这里Benchmaxxing 意味着过度关注推高排行榜的分数有时甚至到了基准测试表现本身成为目标而不是作为通用能力的代理指标的地步。一个突出的例子是 Llama 4它在许多既定基准测试中得分极高。然而一旦用户和开发者上手使用他们就意识到这些分数并不能反映真实世界的能力和实用性。正如那句流行语所说如果测试集是公开的它就不是真正的测试集。而如今的问题是测试集数据不仅有意或无意地是训练语料库的一部分而且在 LLM 开发过程中经常被直接优化。过去即使公共测试集的基准分数虚高至少模型排名仍然保持不变。例如参见下方 2019 年论文《ImageNet 分类器能泛化到 ImageNet 吗》中的注释图。图 13来自 2019 年论文《Do ImageNet Classifiers Generalize to ImageNet?》的标注图。在 LLM 开发中这已经到了基准数字不再是值得信赖的 LLM 性能指标的地步。然而我确实认为基准测试仍然是 LLM 必须跨越的必要门槛。即如果我看到一个 LLM 在基准 Y 上的得分低于 X我就已经知道它不是一个好的 LLM。然而如果它在基准 Y 上的得分高于 X这并不意味着它比另一个在同一基准上得分高于 X 的 LLM 好多少。另一个需要考虑的方面是图像分类器只有一个工作即分类图像。然而LLM 用于许多不同的任务翻译文本、总结文本、编写代码、头脑风暴、解决数学问题等等。评估图像分类器有明确的指标如分类准确率比评估 LLM 在确定性和自由形式任务上的表现要简单得多。除了在实践中尝试 LLM 并不断生成新的基准测试外遗憾的是这个问题没有解决方案。顺便说一句如果你好奇了解 LLM 评估的主要类别你可能会喜欢我的文章《从头理解 LLM 评估的 4 种主要方法》。6、AI 用于编码、写作和研究既然这个问题经常出现我想分享一下我对 LLM 取代人类进行某些类型任务甚至工作的看法。从高层次来看我将 LLM 视为赋予某些职业的人们「超能力」的工具。我的意思是当 LLM 被用好时它们可以使个人效率大幅提高并消除日常工作中的许多摩擦。这范围从相对平凡的任务如确保章节标题的大小写一致到在大型代码库中查找复杂的错误。6.1 编码今天我仍然自己编写大部分我关心的代码。「我关心的」是指在那些我理解代码且代码正确性至关重要的上下文中。例如如果我设置一个 LLM 训练脚本我会实现并仔细检查训练逻辑。这是为了 a) 确保它在做我认为它应该做的事情以及 b) 保留我在该任务中的知识和专业技能。然而我现在使用 LLM 来添加周围更平凡的代码例如添加命令行 argparse 样板代码以便我可以更方便地从命令行使用我自己的代码。图 14使用提示「为 training-script.py 添加 argparse 以支持所有超参数选项」向训练脚本添加命令行参数的例子。但我也越来越多地依靠 LLM 来发现问题、建议改进或对想法进行健全性检查。同时我想了解我正在构建什么作为个人目标我旨在加深我的知识和技能并继续增长我的专业知识。与此同时LLM 对于我核心专业知识之外的任务非常有价值。它们让我自动化了一些我本来没有时间或精力去处理的事情。一个例子是我最近写的一个工具用于将我的 Substack 文章提取并备份为 Markdown。我在 Markdown 中起草所有内容但我经常直接在 Substack 编辑器中编辑和扩充文章所以我的本地草稿并不总是最新的。LLM 还帮助我清理了网站上的 CSS这些 CSS 积累了多年的重复和不一致。今年有很多类似的案例我使用了 LLM。简而言之我认为这里的诀窍是识别何时使用以及何时不使用 LLM。以及如何以一种有助于你增长专业知识同时也令人感到满足的方式使用 LLM。6.2 代码库和代码库LLM 在编写代码方面变得更好了但尽管我听到其他人这么说我不认为代码是或将变得短暂或过时。LLM 赋予人们超能力来生成某些编码项目这些项目如果由他们自己创建将需要大量精力。然而纯粹由 LLM 生成的代码库并不能取代专家精心制作的代码库。这些专家代码库甚至可能是由人类编码员自己使用 LLM 创建的。但关键点在于该领域的专家投入了大量时间和精力来创建、测试和完善它。其他人要复制它需要大量工作所以如果它存在为什么不采用它呢简而言之我认为一个学习了良好设计模式和权衡取舍、并在职业生涯中研究、见过并构建了许多平台的专家全栈 Web 开发人员将能够构建比一个随机提示 LLM 构建平台的人更好的平台。很棒的是一个随机的人现在可以构建一个平台即使它不是最好的。然而使用和提示 LLM 只能让那个人走这么远平台的质量可能会停滞不前。因此如果这个人真的关心改进平台深入研究这里学习其他人如何构建平台并带着更多的知识回来更有效地使用 LLM 来指导和改进平台设计将是一个好主意。6.3 技术写作和研究与编码类似我不认为 LLM 会使技术写作过时。写一本好的技术书籍需要数千小时和对主题的深刻熟悉。这个过程可能涉及 LLM 来提高清晰度、检查技术正确性、探索替代方案或运行小型实验但核心工作仍然取决于人类的判断和专业知识。图 15一个非分阶段的例子其中 LLM 只是帮助我找到并修复了前一篇文章中的错误。是的LLM 可以让技术书籍变得更好。它们可以帮助作者发现错误、扩充参考文献并通常减少花在平凡任务上的时间。这释放了更多时间用于真正需要创造力和经验的深度工作。从读者的角度来看我也不认为 LLM 取代了技术写作。使用 LLM 了解一个主题对于快速提问和初学者级别的解释非常有效。然而当你想要建立更深层次的理解时这种方法很快就会变得混乱。在那一点上与其可能浪费数小时自己试图过滤 LLM 关于你试图学习但尚不是专家的主题的回复通常遵循专家设计的结构化学习路径更有意义。专家可能使用了也可能没有使用 LLM。当然在参加课程或从书中学习时使用 LLM 来澄清问题或探索旁支路径仍然非常有意义。让它设计测验或练习来实践知识也很棒。总的来说我认为 LLM 对作者和读者来说都是净收益。但我也认为这里的诀窍是学会识别何时使用以及何时不使用 LLM。例如主要的缺点是当一个话题变得困难时人们很容易立即使用 LLM因为先自己努力解决问题通常会带来更强的学习效果。我看待研究的方式也差不多。LLM 对于查找相关文献、发现数学符号中的问题和建议后续实验非常有用。但让一位人类研究员坐在驾驶座上仍然是有意义的。也许这里的经验法则是这样的如果这篇研究文章或书完全由人类生成它可能还有进一步改进的空间。如果这篇研究文章或书可以通过仅仅提示 LLM 生成那么它可能不够新颖和/或不够深刻。6.4 LLM 与职业倦怠LLM 仍然相当新且在不断发展我认为过度使用 LLM 也有一个较少讨论的缺点。例如我认为如果模型做了所有的操作而人类主要是在监督工作可能会开始让人感到空虚。当然有些人真的喜欢专注于管理系统和编排工作流程这是一个完全有效的偏好。但对于那些喜欢亲手做事的人来说我认为这种工作模式可能会加速职业倦怠。这对于那些期望因为有了 LLM 而能更快获得更多结果的公司来说尤其如此。与难题搏斗并最终看到它成功有一种特别的满足感。当 LLM 一次性搞定解决方案时我没有同样的感觉。我想这类似于烹饪这只是我想到的我不是一个好厨师。如果你喜欢做披萨使用预制的面团只加配料可能会消除很多乐趣烹饪变成了达到目的的手段。这不一定是坏事但我认为如果你在较长一段时间内几个月或几年每天做很多小时这样的工作我能看到它会让人感到空虚并最终导致倦怠。所以一个自私的观点是写代码也比读代码更有趣。你可能会同意创建 Pull Request 通常比审查它们更有趣当然这对每个人来说并不都是真的。也许一个很好的、理想化的但并非完美的类比说明我们应该如何以可持续的方式使用 AI就是国际象棋。国际象棋引擎在几十年前就超越了人类棋手但人类进行的职业国际象棋仍然活跃且繁荣。我不是国际象棋专家但我觉得这项游戏可能甚至变得更加丰富和有趣了。根据我听到的例如基于 Kasparov 的《Deep Thinking》一书和以 Magnus Carlsen 为特色的播客现代棋手一直在使用 AI 来探索不同的想法挑战他们的直觉并以前所未有的深度分析错误。我认为这是一个有用的模型可以用来思考智力工作其他形式中的 AI。如果用得好AI 可以加速学习并扩展一个人可以合理承担的工作。我认为我们应该更多地把它视为合作伙伴而不是替代品。但我也认为如果 AI 被用来完全外包思考和编码它就有可能破坏动力和长期技能发展。图 16LLMs 降低了入门门槛使程序员无论是初学者还是专家更加高效。然而在我们即将结束 2025 年之际我认为仍然值得投资成为专家因为这样你将能从 LLMs 中获得更多的价值并能够交付更出色的结果。7、优势私有数据LLM 的通用编码、知识问答和写作能力在不断提高。这很大程度上是因为由于训练流程和范式例如 RLVR以及推理扩展和工具使用的改进Scaling 仍然提供了正向的投资回报。然而这将在某个时刻开始趋于平稳类似于我们在 GPT 4 到 GPT 4.5 开发中看到的除非我们继续发明新的训练方法和/或架构目前还没有人知道这些可能是什么样子的。LLM 目前能够解决许多通用任务和低垂的果实。但要将它们确立在某些行业中就需要更多的领域专业化。我认为 LLM 提供商会很乐意获得高质量的、特定领域的数据。目前看来这将是一个挑战。例如似乎大多数接触过的公司都拒绝了此类交易恰恰是因为数据是专有的并且是其业务差异化的核心。我从多个来源听到了这一点还有一篇关于此主题的 The Information 文章。在我看来这完全说得通。我认为将有价值的专有数据有一天可能会给公司带来优势卖给 OpenAI 或 Anthropic 可能有点短视。图 17可用于训练领域专用 LLMs 的数据领域和类型示例但在这些情况下将数据出售给外部方可能会引起担忧。(我不是法律专家这也不构成法律建议但我可以想象如果是一个纯本地的 LLM不会离开公司的安全服务器那么在患者健康数据上训练模型与开发其他使用该患者健康数据的内部软件并无不同。)目前LLM 开发在大规模上极其昂贵且具有挑战性这就是为什么只有少数大公司开发最先进的 LLM。然而我认为 LLM 开发正变得越来越商品化因为 LLM 开发者频繁在雇主之间轮换最终将被更大的金融机构、生物技术公司和其他有预算开发利用其私有数据的具有竞争力的内部 LLM 的公司聘用。这些 LLM 甚至不必完全从头开始训练许多最先进的 LLM 如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布可以进行调整和进一步的后训练。8、从头构建 LLM 和推理模型你可能想知道我今年都在忙些什么。我的重心几乎完全放在了 LLM 相关的工作上。去年我决定成为一名独立人士并创办了自己的公司主要是为了有更多时间从事我自己的研究、书籍撰写、Substack 写作以及行业合作。作为一名独立研究员咨询项目是维持这种工作模式可持续的一部分。这不仅涵盖了日常开销从食品杂货到健康保险还包括一些不太显眼的成本比如用于上述实验的云端算力费用。随着时间的推移我的目标是进一步减少咨询工作将更多时间花在长篇研究和写作上特别是我在这里分享的技术深度文章。我很幸运许多公司都联系我提供全职职位。如果独立这条路走不通那将是一个可行的选择但目前我计划保持独立。如果你觉得我的工作有用并且在能力范围内订阅我的 Substack 或购买我的一本书确实有助于使这类工作变得可持续我真心感谢大家的支持。今年我的个人高光时刻之一是收到了关于我的书《从头构建大语言模型》 (Build A Large Language Model (From Scratch))的积极反馈。我收到了来自世界各地公司和大学读者的许多深思熟虑的留言。这些反馈涵盖了广泛的用例从大学教授将其作为主要教科书来教授 LLM 原理到前学生用它准备面试并获得新职位再到工程师依靠它作为在生产环境中实施自定义 LLM 的踏板。得知这本书现在已经被翻译成至少九种语言我也感到非常兴奋。图 18构建一个大型语言模型从头开始翻译成不同语言。许多读者还问是否会有第二版涵盖更新、更高级的主题。虽然我也考虑过这一点但我对降低这本书的易读性持谨慎态度。例如用更复杂的变体如一些较新的 DeepSeek 模型中使用的多头潜在注意力来替换标准的多头注意力会大大提高准入门槛。相反目前我倾向于保持这本书的原样因为它非常适合那些想入门 LLM 的人。对于对更高级材料感兴趣的读者作为后续我在这一年中向该书的 GitHub 代码库添加了大量的补充材料。我计划随着时间的推移继续扩展这些材料。图 19我今年为《从零构建大型语言模型》From Scratch仓库添加的一些附加内容摘录。此外正如你可能知道的我目前正在撰写续作《从头构建推理模型》。第一本书《从头构建大语言模型》侧重于核心的大语言模型架构和预训练的基础知识。[图片]图 20展示这两本从零开始的书籍如何相互关联的示意图。这本关于推理模型的书则紧接第一本书的内容。它从一个预训练好的基础模型开始探索专门旨在提高推理能力的推理时扩展方法和强化学习技术。图 21《从零构建推理模型》早期访问版的摘录.除了这个 Substack 博客我正在努力撰写这本关于推理的书。在许多方面我认为这是我迄今为止构思最周密、打磨最精细的一本书。目前我估计每一章大约花费 75-120 小时。如果你好奇的话我估计具体的时间分配通常如下3-5 小时头脑风暴和修改选题5-10 小时构建内容结构20 小时编写初始代码10-20 小时运行额外实验并阅读最新文献以获取更多见解10-20 小时制作图表10 小时撰写初稿文本10-20 小时重写和润色章节5-10 小时制作练习题加上运行实验2-5 小时整合编辑和读者的建议目前我已经完成了第 6 章的一半该章实现了用于训练推理模型的带有可验证奖励的强化学习代码。图 22第 6 章和第 7 章中关于可验证奖励的强化学习实验的初步结果。《从头构建推理模型》是一项非常艰巨的工作但我完全乐在其中我希望你和其他读者会发现它像《从头构建大语言模型》一样有用。9、2025 年的惊喜与 2026 年的预测我想用一些主要的收获来结束这篇文章重点关注我认为对我来说有点令人惊讶的事情以及我对 2026 年的预测。9.1 2025 年值得注意和令人惊讶的事情让我们从 2025 年的惊喜开始。如果你在 2024 年早些时候问我这些可能是我没想到的发展几个推理模型已经在主要数学竞赛中达到金牌级表现OpenAI 的一个未命名模型、Gemini Deep Think 和开放权重的 DeepSeekMath-V2。我对这种事情的发生并不感到惊讶但我很惊讶这在 2025 年就已经发生了而不是 2026 年。Llama 4或一般的 Llama在开放权重社区中几乎完全失宠Qwen 在受欢迎程度上已经超过了 Llama根据 Nathan Lambert 的 ATOM 项目报告的下载量和衍生品数量衡量。Mistral AI 在 2025 年 12 月宣布的最新旗舰 Mistral 3 模型使用了 DeepSeek V3 架构。除了 Qwen3 和 DeepSeek R1/V3.2 之外许多额外的竞争者出现在最先进开放权重模型的竞赛中包括 Kimi、GLM、MiniMax 和 Yi。更便宜、高效的混合架构已经成为领先实验室的更大优先事项Qwen3-Next、Kimi Linear、Nemotron 3而不是由单独的实验室开发。OpenAI 发布了一个开放权重模型gpt-oss我今年早些时候写了一篇关于它的独立文章。MCP加入 Linux 基金会已经成为代理式 LLM 系统中工具和数据访问的标准目前我原本预计生态系统在 2025 年会保持更加碎片化直到至少 2026 年。9.2 2026 年预测我们可能会看到一个工业规模、面向消费者的扩散模型用于廉价、可靠、低延迟的推理Gemini Diffusion 可能会率先推出。开放权重社区将缓慢但稳定地采用具有本地工具使用和日益增强的代理能力的 LLM。RLVR 将更广泛地扩展到数学和编码以外的其他领域例如化学、生物学等。经典的 RAG 将慢慢淡出作为文档查询的默认解决方案。与其在每个文档相关的查询上使用检索开发人员将更多地依赖更好的长上下文处理特别是随着将会有更好的「小型」开放权重模型出现。大量的 LLM 基准测试和性能进步将来自于改进的工具和推理时扩展而不是来自于训练或核心模型本身。看起来 LLM 正在变得更好但这主要是因为周围的应用正在改进。同时开发人员将更多地专注于降低延迟并使推理模型在不必要时减少推理 Token 的消耗。别误会2026 年将进一步推动最先进水平但今年的进步比例将更多地来自推理端而不仅仅是训练端。最后总结我认为如果说 2025 年有一个元教训那就是 LLM 的进步不再是关于单一的突破而是通过多个独立的杠杆在多条战线上进行改进。这包括架构调整、数据质量改进、推理训练、推理扩展、工具调用等等。同时评估仍然很困难基准测试是不完美的关于何时以及如何使用这些系统的良好判断仍然至关重要。我希望 2026 年我们继续看到有趣的改进但也希望我们了解改进来自何处。这既需要更好和更一致的基准测试当然也需要透明度。谢谢阅读Cheers, Sebastian附赠LLM 研究论文精选列表2025 年 7 月至 12 月今年 6 月我曾分享了一篇附赠文章其中包含了我为付费订阅者是你们让这个 Substack 博客得以维持精心挑选并收藏的研究论文列表。以同样的方式作为对所有好心支持者的感谢我在下面准备了一份列表列出了我在 2025 年 7 月至 12 月期间收藏并归类的所有有趣的研究文章。我略读了这些论文的摘要但只详细阅读了其中很小的一部分。不过我仍然喜欢不断收集这些有条理的列表因为在进行特定项目时我经常会回过头来查阅其中的某一组论文。然而鉴于目前这篇文章的篇幅已经非常巨大我将这份列表分享在一篇单独的文章中链接如下如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

搞笑视频素材网站免费seo技术培训班

合肥做网站的网络公司天眼通查公司查询

镇平县两学一做网站wordpress制作主题教程

建设网站是什么意思温州企业网站

做网站时链接的网页无法显示企业网站的规划与设计

自助注册搭建网站猪八戒建站服务

网站域名到期怎么续费箱包官方网站模板