上海建网站哪家好同ip网站做友链-河源市网站建设公司-Seo优化

上海建网站哪家好,同ip网站做友链,免费网站推广工具有哪些,免费好用的crm系统本文来自 Andrej Karpathyhttps://karpathy.bearblog.dev/year-in-review-2025/转自#xff1a;赛博禅心2025 年是大语言模型突飞猛进的一年以下是我个人认为最值得关注的几个「范式转变」#xff0c;这些变化重塑了整个行业格局#xff0c;也在概念上给我留下了深刻印象可验…本文来自 Andrej Karpathyhttps://karpathy.bearblog.dev/year-in-review-2025/转自赛博禅心2025 年是大语言模型突飞猛进的一年以下是我个人认为最值得关注的几个「范式转变」这些变化重塑了整个行业格局也在概念上给我留下了深刻印象可验证奖励的强化学习RLVR2025 年初各大实验室训练 LLM 的标准流程大致是这样的1. 预训练PretrainingGPT-2/3 时代约 2020 年确立的基础2. 监督微调Supervised Finetuning, SFT始于 InstructGPT约 2022 年3. 基于人类反馈的强化学习RLHF同样始于约 2022 年这套流程久经验证是训练生产级 LLM 的稳定配方而到了 2025 年可验证奖励的强化学习Reinforcement Learning from Verifiable Rewards, RLVR正式成为这条流水线上的新主力环节RLVR 的核心思路是让 LLM 在一系列「答案可以自动验证」的环境中训练比如数学题、编程挑战等。神奇的是经过这种训练模型会自发地「学会思考」它们开始把复杂问题拆解成中间步骤并摸索出各种解题策略比如反复推敲、来回验证详见 DeepSeek R1 论文中的案例这些能力在之前的训练范式下很难实现因为我们根本不知道对于这个模型而言「最优的推理路径」长什么样它必须自己在优化奖励的过程中摸索出来与 SFT 和 RLHF 这两个相对轻量的阶段不同RLVR 的训练对象是客观的、无法被刷分的奖励函数模型没法通过投机取巧来骗取高分必须真正解决问题因此可以进行更长时间的优化。实践证明 RLVR 的性价比极高它像饕餮一样吞噬了原本留给预训练的算力因此 2025 年的能力提升主要来自实验室们消化这个新阶段带来的红利模型参数规模没怎么变但 RL 训练跑得更久了RLVR 还带来了一个全新的调节旋钮和配套的 Scaling Law通过生成更长的推理链条、增加「思考时间」我们可以在推理阶段用更多算力换取更强的能力OpenAI 的 o12024 年底发布是 RLVR 模型的首次亮相但真正让人直观感受到质变的是 2025 年初发布的 o3「召唤幽灵」vs「培育动物」/ 参差不齐的智能2025 年我以及整个行业开始真正在直觉层面理解 LLM 智能的「形状」。我们不是在培育、进化某种动物而是在召唤幽灵LLM 的一切都与生物智能不同神经网络架构、训练数据、训练算法尤其是优化目标。所以我们得到的是一种在智能空间中截然不同的实体用动物的思维模式去理解它们并不合适从监督信号的角度看人类神经网络是为了让部落在丛林中存活而优化的但 LLM 的神经网络是为了模仿人类的文字、在数学谜题中拿分、在 LM Arena 上获得点赞而优化的由于可验证领域允许 RLVR 训练LLM 在这些领域附近的能力会尖峰式飙升整体呈现出一种令人啼笑皆非的参差不齐特征。它们可以同时是学富五车的天才博学家又是一个困惑懵懂、随时可能被越狱攻击骗走你数据的小学生下图展示了人类智能「蓝色」和 AI 智能「红色」的对比这张 meme 的有趣之处在于它也指出了人类智能同样是参差不齐的只是参差的形状不同与此相关的是我在 2025 年对基准测试产生了普遍的冷感和不信任。核心问题在于基准测试几乎从定义上就是可验证的环境因此天然容易被 RLVR 或通过合成数据生成的弱化版本攻克在典型的刷榜流程中实验室团队不可避免地会在基准测试所占据的嵌入空间小角落周围构建训练环境然后长出覆盖它们的尖刺。在测试集上训练已经成为一门新的艺术形式如果我们刷爆了所有基准测试却依然没有实现 AGI那会是什么样子关于这一节的话题可参考之前的内容• Animals vs. Ghosts动物 vs 幽灵https://karpathy.bearblog.dev/animals-vs-ghosts/• Verifiability可验证性https://karpathy.bearblog.dev/verifiability/• The Space of Minds心智的空间https://karpathy.bearblog.dev/the-space-of-minds/Cursor / LLM 应用的新层级Cursor 今年最让我印象深刻的地方除了它火箭般的增长是它令人信服地揭示了 LLM 应用的一个新层级人们开始讨论「X 领域的 Cursor」正如我今年在 Y Combinator 演讲中所说像 Cursor 这样的 LLM 应用会针对特定垂直领域打包和编排 LLM 调用• 它们负责上下文工程Context Engineering• 它们在底层编排多次 LLM 调用串联成越来越复杂的有向无环图在性能和成本之间精细权衡• 它们为人在回路中Human in the Loop提供针对特定应用的图形界面• 它们提供一个自主性滑块让用户决定 AI 可以自己做多少决定2025 年有大量讨论围绕这个新应用层有多厚展开。LLM 实验室会不会通吃所有应用场景还是说 LLM 应用创业者仍有广阔天地我个人的判断是 LLM 实验室倾向于培养出能力全面的大学毕业生而 LLM 应用则会通过组织、微调并结合私有数据、传感器、执行器和反馈回路把这些毕业生真正培训成特定垂直领域的专业人士Claude Code / 住在你电脑里的 AIClaude Code 是第一个令人信服地展示了 LLM 智能体面貌的产品它以循环的方式串联起工具调用和推理进行持续的问题求解此外 Claude Code 让我印象深刻的一点是它运行在你自己的电脑上使用你的私有环境、数据和上下文。我认为 OpenAI 在这一点上走错了路他们早期的 Codex / Agent 工作重心放在了云端部署在 ChatGPT 调度的容器里运行而不是简单地跑在本地诚然在云端运行的智能体集群感觉像是 AGI 的终极形态但我们活在一个参差能力的中间世界takeoff 足够缓慢因此让智能体直接跑在开发者的电脑上更为合理注意真正关键的区别不在于 AI 操作碰巧在哪里运行云端、本地还是别处而在于其他一切那台已经开机、配置好的电脑它的安装环境、上下文、数据、密钥、配置以及低延迟的交互Anthropic 正确把握了这个优先级并将 Claude Code 打包成一个精致、极简的命令行工具改变了 AI 的面貌。它不再只是一个你去访问的网站而是一个住在你电脑里的小精灵。这是一种与 AI 交互的全新范式氛围编程Vibe Coding2025 年是 AI 跨越能力门槛的一年人们可以纯用英语说出各种令人惊叹的程序甚至忘记代码的存在。有趣的是「vibe coding」这个词是我在一条灵光乍现的推文里随手造的完全没想到它能传播这么远有了氛围编程编程不再是受过高度训练的专业人士的专属而是任何人都能做的事。从这个意义上说它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所写内容的又一例证。与以往所有技术形成鲜明对比普通人从 LLM 中获得的收益远远超过专业人士、企业和政府但氛围编程不仅仅赋能普通人接触编程它还让训练有素的专业人士能够写出大量本来永远不会被写出的软件。在 nanochat 项目中我氛围编程用 Rust 写了一个高度定制、极其高效的 BPE 分词器而不必去学习现有的库或真正精通 Rust今年我氛围编程写了很多项目作为快速演示比如 menugen、llm-council、reader3、HN time capsule。我甚至氛围编程写过一次性的临时程序只为找到一个 bug为什么不呢代码突然变得免费、短命、可塑、用完即弃氛围编程将重塑软件业改变职位描述Nano Banana / LLM 的图形界面Google Gemini Nano Banana 是 2025 年最令人惊叹、最具范式转变意义的模型之一在我的世界观里 LLM 是下一个重大计算范式类似于 1970 年代、80 年代的计算机。因此我们将看到类似的创新浪潮出于本质上相同的原因。我们将看到个人计算的等价物、微控制器的等价物认知内核、互联网的等价物智能体互联网等等具体到用户界面与 LLM 聊天有点像 1980 年代在计算机控制台上敲命令。文本是计算机和 LLM 偏爱的原始数据表示但它不是人类偏爱的格式尤其是在输入端。人们其实不喜欢阅读文字它慢且费力。相反人们喜欢以视觉化、空间化的方式消费信息这正是传统计算中发明图形用户界面的原因同理 LLM 应该用我们偏爱的格式与我们交流图像、信息图表、幻灯片、白板、动画视频、Web 应用等等。当然目前早期和现有的版本是 emoji 和 Markdown 这类东西它们是装扮和排版文字的方式用标题、粗体、斜体、列表、表格等让阅读更轻松。但谁真正会去构建 LLM 的 GUI 呢从这个视角看 Nano Banana 是一个早期的雏形暗示了未来可能的样子。重要的是它不仅仅关乎图像生成本身而是关乎文本生成、图像生成、世界知识三者融合在模型权重中所产生的联合能力小结2025 年是 LLM 令人兴奋的一年LLM 正在作为一种全新的智能形态浮现它们同时比我预想的聪明得多也比我预想的蠢得多。无论如何它们极其有用而我认为即便在当前的能力水平下整个行业也远未实现其 10% 的潜力与此同时有太多想法值得尝试从概念上看这个领域依然广阔开放。正如我今年早些时候在 Dwarkesh 播客中提到的我同时相信我们将继续见证快速而持续的进步但同时仍有大量工作要做系好安全带END分享收藏点赞在看

上海建网站哪家好同ip网站做友链

锦江网站建设wordpress手机后台版

长沙做公司网站重庆消防网

海南七星彩网站开发个人网站不备案做经营性质网站

网站设计说明书范文桂林网站优化价格

为什么网站建设公司越来越少廊坊建设质量监督局网站

建设银行网站支付流程网站的查询功能是怎样做的