外贸建站网站推广公司名称变更网站要重新备案-河源市网站建设公司-Seo优化

外贸建站网站推广,公司名称变更网站要重新备案,直接拖拉做网站的软件,自己制作音乐的软件免费2025年大语言模型迎来推理模型突破#xff0c;DeepSeek R1提出的RLVR与GRPO算法成为年度焦点。模型架构持续优化#xff0c;推理扩展和工具使用成为提升性能的关键路径。尽管基准测试存在局限性#xff0c;LLM作为工具赋能人类在编程、写作和科研领域的作用日益凸显。未来DeepSeek R1提出的RLVR与GRPO算法成为年度焦点。模型架构持续优化推理扩展和工具使用成为提升性能的关键路径。尽管基准测试存在局限性LLM作为工具赋能人类在编程、写作和科研领域的作用日益凸显。未来RLVR将拓展至更多领域持续学习和推理时扩展将成为重要研究方向。随着 2025 年结束我想回顾一下今年大语言模型领域最重要的一些进展反思目前仍存在的局限与未解难题并谈谈对未来的几点看法。每年我都会说2025 年对于 LLM 和 AI 来说依然是极为动荡且充满突破的一年今年的进步依旧没有任何放缓或触顶的迹象。推理之年、RLVR 与 GRPO我想聊的话题很多但还是按时间顺序从 2025 年 1 月说起。模型规模的扩展依然有效但在实际体验中并没有带来质的变化唯一的例外是 OpenAI 新发布的 o1 模型它引入了推理轨迹。因此当 DeepSeek 在 2025 年 1 月发布R1 论文展示了通过强化学习可以让模型具备“推理”能力时这无疑是一个重大突破。在 LLM 语境下所谓“推理”指的是模型会解释自己的答案而这种解释本身往往能提升答案的准确率。图 1推理模型通常会生成包含中间步骤的长答案而非简短回复1.1 DeepSeek 时刻DeepSeek R1 之所以备受关注原因有三首先DeepSeek R1 作为开源权重模型性能极为出色已经可以媲美当时最强的闭源模型如 ChatGPT、Gemini 等。其次DeepSeek R1 的发布让许多人尤其是投资人和媒体重新审视了 2024 年 12 月的DeepSeek V3 论文。这促使大家修正了此前的认知——训练顶级模型虽然依然昂贵但实际成本可能比想象中低一个数量级估算值从 5 千万甚至 5 亿美元降至大约 500 万美元。图 2摘自 DeepSeek V3 论文的表格估算了 6710 亿参数 DeepSeek V3 模型的训练成本。DeepSeek R1 的补充材料中估算在 DeepSeek V3 基础上训练 R1 模型仅需额外 29.4 万美元这一数字再次远低于业界普遍预期。图 3摘自 DeepSeek R1 论文补充材料的表格估算了在 DeepSeek V3 基础上训练 R1 模型的成本。当然这 500 万美元的估算有不少前提条件。比如它只计算了最终模型训练的算力成本并未包含研究人员薪酬、超参数调优和实验等开发支出。第三也是最值得关注的一点论文提出了“可验证奖励的强化学习”RLVR及 GRPO 算法这是一种全新的或至少是改良的算法路径用于开发推理型模型并在后训练阶段进一步提升 LLM 能力。图 4强化学习的应用方式 / 时机概述。到目前为止像有监督指令微调SFT和基于人类反馈的强化学习RLHF这样的后训练方法依然是大模型训练流程中的关键环节但它们的瓶颈在于需要大量昂贵的人工书面回复或偏好标签。当然也可以用其他大模型自动生成这些数据但这又陷入了“先有鸡还是先有蛋”的困境。DeepSeek R1 和 RLVR 的意义就在于它们让我们能够在大规模数据上对大模型进行后训练这为利用更大算力进一步提升模型能力、挖掘潜力提供了极佳的途径前提是算力预算充足。RLVR 中的 “V” 代表“可验证”verifiable也就是说我们可以用确定性的方式给数据打上正确与否的标签而这些标签足以让大模型学会复杂的问题求解。目前主要应用在数学和代码领域但这一思路也有望拓展到其他领域。图 5可验证奖励的一个简单示例。这里不打算深入技术细节因为这篇年度回顾还要涉及其他内容。其实关于推理型大模型和 RLVR完全可以单独写成一整篇文章甚至一本书。总之今年大模型领域的主旋律就是基于 RLVR 和 GRPO 的推理模型。几乎所有主流的开源或闭源大模型开发者都在 DeepSeek R1 之后推出了各自的推理有时称为“思考”版本。1.2 大模型发展重点如果要用一句话概括近几年大模型研发的关注重点除了架构和预训练算力的持续扩展之外大致可以归纳如下2022 年RLHF PPO2023 年LoRA SFT2024 年Mid-Training中期训练2025 年RLVR GRPO预训练始终是一切的基础。除此之外2022 年正是 RLHF通过 PPO 算法让我们迎来了最初的 ChatGPT。2023 年业界重点关注 LoRA 及类似的高效参数微调技术用于训练小型定制大模型。图 6近年来主流闭源与开源大模型研发的部分关注方向。注意这些是累积的比如 RLHF PPO 依然重要并在使用只不过已不是最热门的话题。到了 2024 年各大实验室纷纷让自己的预训练流程更加精细化重点包括合成数据的利用、数据混合比例的优化、领域专用数据的引入以及专门的长上下文训练阶段。我在 2024 年的文章中曾总结过这些不同做法当时还没有 “mid-training” 这个说法所以都归在了预训练阶段。那时我把这些方法都归为“预训练技术”因为它们用的是同样的预训练算法和目标。如今这些在通用数据预训练之后、稍微更有针对性的阶段通常被称为“中间训练”mid-training它介于常规预训练和后训练之间——后训练包括 SFT、RLHF以及现在的 RLVR。那么接下来会发生什么呢我认为明年大家会更加关注 RLVR。目前RLVR 主要应用在数学和代码领域。下一步的合理方向不仅是用最终答案的正确性作为奖励信号还要在 RLVR 训练中评判大模型的解释过程。其实这种做法早在多年前就有了学界称之为“过程奖励模型”Process Reward ModelsPRMs。不过迄今为止它的效果还不算理想。比如引用 DeepSeek R1 论文中的一段话4.2. 未果的尝试[…] 总结来说虽然 PRM 在对模型生成的 Top-N 答案进行重排序或辅助引导搜索方面表现不错Snell 等2024但在我们的大规模强化学习实验中PRM 带来的优势有限反而增加了计算开销。不过结合上个月发布的 DeepSeekMath-V2 论文我认为未来会有更多“解释评分”作为训练信号被用起来。目前对解释的评分方式是用另一个大模型来评判。这也意味着RLVR 未来有望扩展到数学、代码之外的更多领域。所以如果你问我 2026 年和 2027 年会有哪些趋势我的看法如下2026 年RLVR 扩展以及更深入的推理时inference-time扩展2027 年持续学习continual learning除了前面提到的 RLVR 扩展外我认为 2026 年还会有更多关于推理时扩展的探索。所谓推理时扩展就是在模型训练完成后为了让大模型生成更优答案投入更多时间和算力。虽然成本和延迟会上升但效果也会显著提升。其实推理时扩展并不是什么新鲜事很多大模型平台已经在底层实现了一些相关技术。这本质上是延迟、成本和准确率之间的权衡。但在某些对准确率要求极高的场景下哪怕推理成本和延迟很高也完全值得。例如最近的 DeepSeekV2-Math 论文就展示了通过极致的推理时扩展模型在高难度数学竞赛基准上达到了金牌水平。图 7两种推理时扩展方法的结合自洽性self-consistency与自我精炼self-refinement。增加自我精炼迭代次数可以提升准确率。图源自 DeepSeekMath-V2 论文今年同行们也频繁讨论持续学习。简单来说持续学习就是让模型在不从头训练的情况下能够不断吸收新数据、新知识。其实这并不是什么新鲜观点我也很疑惑为什么今年会被频繁提及毕竟在持续学习领域目前并没有出现什么突破性的进展。持续学习的最大难题在于“灾难性遗忘”——正如持续预训练的实验所示模型在学习新知识的同时往往会在一定程度上遗忘旧知识。不过既然这是个热门话题我也预期未来几年内减少灾难性遗忘、推动持续学习方法的研发会成为重要的研究方向。GRPO年度学术宠儿在大模型训练成本高昂的当下学术界的研究其实面临不少挑战。当然许多推动大模型进步、成为主流的关键技术依然是在学术界诞生的甚至正是因为资源有限才激发了创新。近几年像 LoRA低秩适配2021 年及其相关的参数高效微调方法就非常受欢迎。图 8基于代码的 LoRa 教程简介还有 DPO直接偏好优化及其相关的免奖励模型对齐方法作为“人类反馈强化学习”的替代方案也逐渐流行起来。图 9基于代码的 DPO 教程简介在我的圈子里今年最受关注的研究当属 GRPO。虽然它最早是在 DeepSeek R1 论文中提出而非传统学术机构但它依然让今年的研究圈异常活跃无论是 RLVR 还是 GRPO概念都很有意思而且从实验成本来看规模合适时也并不算高不可攀。今年无论是企业还是学术界都对 GRPO 做了不少数学层面的改进这些改进后来也被应用到了最前沿的大模型训练流程中。例如部分改进包括Olmo 3零梯度信号过滤DAPOYu 等2025https://arxiv.org/abs/2503.14476)主动采样DAPOYu 等2025https://arxiv.org/abs/2503.14476)Token 级损失DAPOYu 等2025https://arxiv.org/abs/2503.14476)无 KL 损失DAPOYu 等2025https://arxiv.org/abs/2503.14476 和 Dr. GRPOLiu 等2025https://arxiv.org/abs/2503.20783)更高的裁剪阈值DAPOYu 等2025https://arxiv.org/abs/2503.14476)截断重要性采样Yao 等2025https://fengyao.notion.site/off-policy-rl)不进行标准差归一化Dr. GRPOLiu 等2025https://arxiv.org/abs/2503.20783)DeepSeek V3.2针对不同领域调整 KL 强度如数学领域设为零重加权 KL离策略序列掩码保留 top‑p / top‑k 采样掩码保持原始 GRPO 优势归一化我可以确认这些 GRPO 的技巧和改进在实际训练中影响巨大。例如采用其中一项或多项改进后训练过程中的“坏更新”不再干扰模型表现也无需频繁回滚到检查点。即使是在非常短的训练周期内采用这些技巧后提升也非常明显图 10我的 GRPO 从零实现训练代码部分实验结果截图总之如果你想试试我的“从零构建推理模型”代码库里有一份原汁原味的 GRPO 脚本可供玩耍。很快我会补充更多消融实验和相应的修改。LLM 架构分岔路口说到 LLM 架构目前最先进的模型依然采用经典的解码器式 Transformer 结构。不过今年开源权重的 LLM 基本都采用了专家混合MoE层并且至少引入了一种“效率优化”的注意力机制比如分组查询注意力、滑动窗口注意力或多头潜变量注意力等。除了这些相对标准的 LLM 架构外我们还见到了一些更激进的效率优化专门针对注意力机制使其计算复杂度随序列长度线性增长。比如 Qwen3-Next 和 Kimi Linear 中的门控 DeltaNet以及 NVIDIA Nemotron 3 中的 Mamba-2 层。我的预测是未来几年我们还会继续基于 Transformer 架构开发新模型至少在追求最强性能的领域会如此。与此同时我认为像门控 DeltaNet、Mamba 层这样的效率和工程优化会越来越多。毕竟LLM 的训练、部署和应用规模巨大从财务角度看这些公司还在为 LLM 服务投入巨资提升效率是必然选择。当然这并不意味着没有其他替代方案。比如文本扩散模型就是一种有趣的尝试。目前这类模型还属于实验性研究但 Google 已经宣布将发布 Gemini Diffusion 模型。虽然它的建模质量无法与 Google 最先进的产品媲美但速度极快非常适合对延迟要求极高的任务如代码补全。另外就在两周前开源权重的 LLaDA 2.0 模型发布。其中最大的模型有 1000 亿参数是目前规模最大的文本扩散模型性能与 Qwen3 30B 相当。虽然整体上没有刷新 SOTA但在扩散模型领域依然是一个值得关注的发布。也是推理扩展和工具使用之年通过扩大训练数据和模型架构来提升 LLM 性能这一套路依然有效。但特别是今年这已经不再是“唯一”且充分的配方。以 GPT 4.52025 年 2 月为例传言其规模远超 GPT 4以及后来的 GPT 5但单纯依靠扩容其实并不是最优解。GPT 4.5 的能力或许比 GPT 4 更强但其训练投入被认为是“性价比很低”。相反今年的大部分进展更多得益于更完善的训练流程尤其是训练中后期的优化以及推理阶段的扩展。比如前文提到的 DeepSeekMath-V2它在数学领域达到了金牌水平这背后推理扩展就是关键因素之一。通过推理扩展我们可以让大模型按需解决极其复杂的任务GPT Heavy Thinking 或 Pro 也是类似的例子由于高延迟和高成本这类模型并不适合所有场景但在一些高难度的数学或编程问题上这种高强度推理就非常有价值。另一个重大进步是在训练大模型时有意识地引入工具使用的能力。大家都知道幻觉hallucination一直是大模型的顽疾。可以说幻觉率之所以持续下降很大程度上得益于工具使用的引入。比如当你问 1998 年 FIFA 世界杯冠军是谁时大模型不必死记硬背而是可以通过工具调用传统搜索引擎从权威网站比如 FIFA 官网抓取并筛选出正确信息。解数学题时也一样可以调用计算器 API 等工具。以 OpenAI 的 gpt-oss 系列为例这是今年较早发布的开源权重模型之一专门针对工具使用进行了优化。图 11gpt-oss 模型卡片论文中的带注释表格不过开源生态还没有完全跟上这股潮流很多工具默认还是让大模型在“非工具模式”下运行。原因之一是这种范式本身还在不断演进相关工具链还需要适配。另一个原因则是安全性问题——让大模型无限制地调用工具可能带来安全隐患甚至对系统造成破坏。这里其实可以类比你是否愿意让一个刚入职的实习生拥有如此广泛的系统访问权限我相信未来几年在本地使用大模型时支持和允许工具调用会变得越来越普遍。年度热词Benchmaxxing如果要用一个词来概括今年大模型领域的发展趋势那就是“Benchmaxxing”刷榜最大化。所谓 Benchmaxxing就是大家过于关注排行榜成绩甚至把刷高基准测试分数当成最终目标而不是作为模型通用能力的参考。最典型的例子就是 Llama 4它在各种权威基准测试中表现极佳。但等到用户和开发者真正用起来才发现这些分数并不能代表模型在实际场景下的能力和实用性。俗话说测试集如果是公开的那就不是真正的测试集。现在的问题是测试集的数据不仅常常被有意无意地纳入训练语料而且在模型开发过程中还会被直接针对性优化。早些年即便公开测试集上的基准分数被人为抬高至少模型的排名还是有参考价值的。比如2019 年那篇《ImageNet 分类器能泛化到 ImageNet 吗》论文中就有一张很有代表性的图。图 12摘自 2019 年论文《ImageNet 分类器能泛化到 ImageNet 吗》的带注释图但在 LLM 领域如今基准分数已经很难作为可靠的性能指标了。不过我依然认为基准测试是 LLM 必须迈过的门槛。换句话说如果某个 LLM 在某项基准测试 Y 上的得分低于 X我就能断定它不是一个好模型。但如果它得分高于 X这并不意味着它比另一个同样得分高于 X 的模型更优秀。还有一点值得注意图像分类器只有一个任务——分类图片。而 LLM 却被用于各种各样的任务比如文本翻译、摘要、代码生成、头脑风暴、数学解题等等。图像分类器的评估有明确的指标比如分类准确率因此相对简单而 LLM 既要面对确定性任务也要面对开放式任务评估起来就复杂得多。除了实际使用 LLM、不断设计新基准测试外目前还没有更好的办法来解决这个问题。AI 在编程、写作与科研中的应用既然大家经常讨论这个话题我也想谈谈自己对“LLM 取代某些任务甚至职业”的看法。总体来说我认为 LLM 是为某些职业的人赋能的工具。也就是说善用 LLM 能极大提升个人生产力减少日常工作中的各种阻力。无论是像统一标题格式这样琐碎的事还是在大型代码库中定位复杂 bugLLM 都能帮上大忙。6.1 编程现在凡是我真正关心的代码依然会亲自编写。这里的“关心”指的是那些我需要完全理解、并且必须确保其正确性的代码。比如搭建一个 LLM 训练脚本时我会亲自实现并仔细检查训练逻辑一是确保它按我的预期运行二是保持自己在这方面的知识和能力。不过像命令行参数解析这类重复性代码我现在会交给 LLM 来生成这样可以让我更方便地在命令行下调用自己的代码。图 13示例——用提示“为 training-script.py 的所有超参数选项添加 argparse”自动为训练脚本添加命令行参数。但我现在越来越依赖 LLM 来发现问题、提出改进建议或者帮我验证一些想法是否靠谱。与此同时我还是希望能真正理解自己在做什么并且把提升知识和技能、不断精进作为个人目标。LLM 在我不擅长的领域也极为有用。它们让我能自动化处理一些原本没时间、没精力去做的事情。比如最近我写了个工具用来提取并备份我在 Substack 上的文章为 Markdown 格式。我所有内容都用 Markdown 起草但常常会直接在 Substack 编辑器里修改和扩展所以本地草稿经常不是最新的。LLM 还帮我整理了网站的 CSS之前那堆样式表已经积累了多年重复和混乱。今年我用 LLM 解决了很多类似的小问题。简而言之关键在于分清什么时候该用 LLM什么时候不该用以及如何用 LLM 既能提升效率又能让自己在专业上获得成长和满足感。6.2 代码库与代码库管理LLM 生成代码的能力越来越强但和一些人的看法不同我并不认为代码会因此变得无足轻重或很快过时。LLM 确实让人拥有了“超能力”能快速生成原本需要大量精力才能完成的项目。然而完全由 LLM 生成的代码库并不能取代专家精心打造的代码库。即便这些专家在写代码时也用到了 LLM核心在于有经验的人投入了大量时间和精力去设计、测试和打磨这些代码。要复制这样的成果别人也得付出不少努力——既然现成的好代码已经有了为什么不用呢总的来说一个精通全栈开发、熟悉各种设计模式和权衡、见多识广、亲手搭建过许多平台的专家肯定能比随便让 LLM 写代码的人做出更好的平台。当然现在普通人也能用 LLM 搭建一个平台哪怕不是最优的。但只靠 LLM 和简单的提示平台的质量很快就会遇到瓶颈。如果真的想让平台变得更好还是得深入学习看看别人是怎么做的积累更多知识再用 LLM 辅助设计和优化这样才能不断提升。6.3 技术写作与研究和编程类似我并不认为 LLM 会让技术写作变得多余。写好一本技术书籍往往需要数千小时的投入和对主题的深刻理解。在这个过程中LLM 可以用来提升表达的清晰度、校对技术细节、探索不同方案或者运行一些小实验但核心工作依然离不开人的判断和专业积累。图 14一个真实案例LLM 帮我在上一篇文章中发现并修正了一个错误。没错LLM 确实能让技术书籍变得更好。它们可以帮助作者发现错误、补充参考资料还能大大减少机械性工作所耗费的时间。这样一来作者就能把更多精力投入到真正需要创造力和经验的深度工作上。从读者的角度来看我同样不认为 LLM 能取代技术写作。用 LLM 来了解某个主题确实很适合解答简单问题和入门级的知识。但如果想深入理解某个领域仅靠 LLM 很快就会变得混乱无序。这时候与其自己花大量时间筛选 LLM 的各种回答不如直接跟随专家设计的系统化学习路径无论专家是否用过 LLM。这样更高效也更容易获得系统性的知识。当然在上课或读书的过程中遇到疑问时用 LLM 查找资料、探索相关话题或者让它出题、设计练习来巩固知识都是很好的用法。总的来说我认为 LLM 对作者和读者来说都是利大于弊。不过关键在于学会什么时候该用 LLM什么时候不该用。比如遇到难题时很多人会忍不住立刻用 LLM 求助但其实自己先独立思考、努力解决往往能学得更扎实。我对科研的看法也类似。LLM 在查找相关文献、检查数学符号、提出后续实验建议等方面非常有用但主导研究的仍然应该是人类研究者。或许可以这样总结如果一篇论文或一本书完全由人类创作那它本可以借助 LLM 进一步完善如果一篇论文或一本书只需简单提示 LLM 就能生成那它大概率不够新颖或深刻。6.4 LLM 与职业倦怠LLM 还很新发展也很快但我认为过度依赖 LLM 还有一个不太被讨论的隐患。比如如果所有实际工作都交给模型人只负责监督久而久之工作的意义感可能会变得空洞。确实有些人天生喜欢管理系统、协调流程这种偏好完全无可厚非。但对于那些更享受亲自“做事”的人来说这种工作模式反而容易加速倦怠尤其是在公司要求产出更快、更多而现在又有了 LLM 加持的情况下这种现象可能更为明显。解决一个棘手难题最终让它跑起来这种挣扎后的成就感是独特的。而当 LLM 一下子就给出了解决方案时我并不会有同样的满足感。这有点像做饭只是随手举个例子其实我厨艺一般。如果你喜欢亲手做披萨那么用现成的面团、只加点配料做饭的乐趣就少了大半烹饪也变成了纯粹的手段。这本身没什么不好但如果你每天都这样工作持续几个月甚至几年难免会觉得空虚最终导致倦怠。从个人角度讲写代码本身比读代码更有乐趣。你可能也会同意提交 Pull Request 通常比审核 Pull Request 更有意思当然这并非适用于所有人。或许用国际象棋来类比 AI 的可持续用法是一个理想但不完美的比喻。早在几十年前象棋引擎就已经超越了人类棋手但人类职业象棋依然活跃且蓬勃发展。虽然我不是象棋专家但我认为这项运动反而变得更加丰富和有趣了。据我了解比如参考卡斯帕罗夫的《深度思考》以及马格努斯 · 卡尔森相关播客现代棋手会用 AI 来探索各种新思路挑战自己的直觉分析失误深度远超以往。我觉得这种模式值得借鉴到其他智力工作中。用得好AI 可以加速学习拓展个人能力边界。我们应该把 AI 当作合作伙伴而不是替代品。但如果把思考和编码全部外包给 AI反而会削弱人的动力和长期技能成长。图 15LLM 降低了入门门槛让新手和高手都能更高效地编程。不过到了 2025 年末我依然认为值得投入精力成为专家因为这样你能更好地驾驭 LLM产出更优异的成果。优势私有数据LLM 在通用编程、知识问答和写作等方面的能力持续提升。这主要得益于训练流程和范式如 RLVR、推理规模和工具使用等方面的进步使得模型扩展依然具备良好的投资回报率。不过这种增长最终会趋于平缓类似于我们从 GPT-4 到 GPT-4.5 的升级所见除非我们不断发明新的训练方法或架构目前还没人知道这些新方法会是什么样子。现阶段LLM 已经能够解决许多通用任务和相对容易的问题。但要让它们真正扎根于某些行业还需要更强的领域专精能力。我认为LLM 的开发者们肯定非常渴望获得高质量、特定领域的数据。但目前来看这将是一大难题。比如据了解大多数被接洽的公司都拒绝了相关合作原因正是这些数据属于公司核心资产是其业务差异化的关键。我从多个渠道听说了类似情况《The Information》也有相关文章报道。在我看来这完全可以理解。毕竟把可能带来竞争优势的宝贵专有数据卖给 OpenAI 或 Anthropic未免有些短视。图 16各行业中可能对训练领域专用 LLM 有价值的数据类型示例但将这些数据外售会引发诸多顾虑。我并非法律专家这也不是法律建议但我可以想象如果是在公司本地安全服务器上训练的本地 LLM利用患者健康数据训练模型与开发其他处理这些数据的内部软件并无本质区别。目前LLM 的开发成本极高规模化难度也很大因此只有少数几家大公司能研发最先进的 LLM。不过我认为 LLM 的开发正逐步走向商品化因为 LLM 开发者频繁流动最终会被大型金融机构、生物科技公司等有实力自研 LLM 的企业所吸纳这些企业可以利用自身的私有数据打造具备竞争力的内部 LLM。这些 LLM 甚至不必完全从零开始训练许多先进的 LLM如 DeepSeek V3.2、Kimi K2、GLM 4.7 等已经开源发布可以在此基础上进行适配和后续训练。从零构建 LLM 与推理模型你可能会好奇今年我都在忙些什么。其实我几乎把全部精力都投入到了 LLM 相关的工作。去年我决定独立出来创办公司主要是为了能有更多时间专注于自己的研究、写作、Substack 内容和行业合作。作为独立研究者咨询项目是维持这种工作方式的重要支撑。这不仅包括日常开销比如买菜、医疗保险还有一些不那么显眼的成本比如实验所需的云计算资源。未来我的目标是进一步减少咨询工作把更多时间投入到长篇研究和写作尤其是这里分享的技术深度解析。很幸运有许多公司向我抛来橄榄枝邀请我担任全职职位。如果未来独立工作不顺利这也是一条可行的退路。但目前我还是打算继续保持独立身份。今年让我最开心的事之一就是我的书《从零构建大模型》Build A Large Language Model (From Scratch)收获了许多积极反馈。世界各地的公司和高校读者都给我发来了真诚的留言。这些反馈涵盖了各种应用场景有大学教授把这本书作为主教材用来讲授 LLM 的原理有毕业生用它备考面试顺利拿到新工作还有工程师把它当作实现自定义 LLM 上线的入门指南。更让我欣喜的是这本书目前已经被翻译成至少九种语言。图 17《从零构建大模型》多语种译本展示不少读者也问我是否会出第二版讲解更新、更高级的内容。其实我也考虑过但担心这样会让入门门槛变高。比如如果把标准的多头注意力机制换成像 DeepSeek 等新模型用的多头潜变量注意力multi-head latent attention等更复杂的变体初学者就很难上手了。所以目前我还是倾向于保持原书内容不变因为它对想入门 LLM 的人来说非常合适。对于想进一步深入的读者我在过去一年里已经在书的 GitHub 仓库 https://github.com/rasbt/LLMs-from-scratch 里补充了大量进阶材料未来也会持续更新。图 18今年我添加到“从零构建大模型”仓库中的一些额外材料的摘要。另外正如你们所知我现在正在写续作——《从零构建推理模型》Build A Reasoning Model (From Scratch)也将在人民邮电出版社图灵公司出版。第一本《从零构建大模型》主要讲了 LLM 的核心架构和预训练基础。图 19两本“从零开始”系列书籍的内容衔接关系示意推理模型这本书则是在前作的基础上展开聚焦于如何在已有预训练模型的基础上通过推理时的扩展方法和强化学习等技术进一步提升模型的推理能力。可以说这是我目前为止最用心、最精雕细琢的一本书。图 20《从零构建推理模型》内容摘要2025 年的意外与 2026 年的预测最后我想总结一下本文的主要收获重点谈谈让我感到意外的地方以及对 2026 年的一些预测。9.1 2025 年值得注意和令人惊讶的事情先说说 2025 年的意外。如果你在 2024 年问我我大概率不会预料到这些进展多个推理模型已经在重要数学竞赛中达到金牌水平 https://www.nature.com/articles/d41586-025-02343-x)如 OpenAI 的未命名模型、Gemini Deep Think、开源权重的 DeepSeekMath-V2。虽然我并不意外这一成就本身但没想到 2025 年就实现了而不是 2026 年。Llama 4乃至整个 Llama 系列在开源权重社区几乎被淘汰Qwen 的受欢迎程度已超越 Llama以下载量和衍生模型数量为准数据来自 Nathan Lambert 的 ATOM 项目。Mistral AI 在 2025 年 12 月发布的旗舰模型 Mistral 3采用了 DeepSeek V3 架构。除了 Qwen3 和 DeepSeek R1/V3.2开源权重 SOTA 模型的竞争者越来越多包括 Kimi、GLM、MiniMax 和 Yi 等。领先实验室已将更便宜、高效的混合架构作为优先方向如 Qwen3-Next、Kimi Linear、Nemotron 3而不是像以前那样由不同实验室各自开发。OpenAI 发布了开源权重模型gpt-oss。MCP 已加入 Linux 基金会已成为代理式 LLM 系统中工具和数据访问的事实标准目前如此我原以为 2025 年生态会更分散至少要到 2026 年才会统一。9.2 对 2026 年的预测我们很可能会看到面向消费者、具备行业规模的扩散模型用于实现廉价、可靠、低延迟的推理服务其中 Gemini Diffusion 大概率会率先推出相关产品。开源权重社区将会逐步、稳步地采用具备本地工具调用和更强自主能力的 LLM。RLVR强化学习与验证推理将从数学和编程领域进一步拓展到化学、生物等更多学科。传统的 RAG 作为文档查询的默认方案将逐渐淡出。开发者将不再对每个文档相关问题都采用检索而是更多依赖于更强的长上下文处理能力尤其是随着更优秀的“小型”开源权重模型的出现。今年 LLM 在基准测试和性能上的许多进步更多将来自于工具链的完善和推理阶段的扩展而非模型训练本身或核心架构的变革。表面上看大模型似乎进步神速但其实主要得益于外围应用的提升。同时开发者会更加关注降低延迟并让推理模型在不必要时减少推理 token 的消耗。别误会2026 年肯定还会有前沿突破但今年的进步更多是推理环节带来的而不仅仅是训练端的提升。总结一下2025 年给我们的最大启示是LLM 的进步并非依赖某个单点突破而是在多个方向、通过多种独立手段共同推进。这包括架构微调、数据质量提升、推理训练、推理扩展、工具调用等多方面。与此同时评测依然很难基准测试并不完美何时何地如何使用这些系统依然需要良好的判断力。我对 2026 年的期望是我们不仅能看到更多有趣的进步还能真正理解这些进步的来源。这需要更好、更一致的基准测试当然也需要更多透明度。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

外贸建站网站推广公司名称变更网站要重新备案

用网站源码做网站在附近找工作

网站与个人网站99到家网站怎么做

如何建设网站挣钱万网做网站给网站源码

网站建立的意义深圳做app网站设计

手机网站下拉刷新腾讯云域名注册官网

微信微网站是什么格式的小蚂蚁page页面模板