通辽做网站的公司大连搜狗推广

张小明 2026/1/13 23:58:20
通辽做网站的公司,大连搜狗推广,购物系统简介,做外贸进国外网站当今的⼤语⾔模型#xff08;LLM#xff09;智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。但现有评测⼤多只关注“任务是否完成”#xff0c;却忽视了⼀个核⼼问题#xff1a;“完成任务花了多⻓时间#xff1f;”。在多智能体协作时#xff0c;这种对“时间效率”…当今的⼤语⾔模型LLM智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。但现有评测⼤多只关注“任务是否完成”却忽视了⼀个核⼼问题“完成任务花了多⻓时间”。在多智能体协作时这种对“时间效率”的忽视尤为致命。为此作者提出了 ParaCook一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现即便是GPT-5这样的顶级模型在面对复杂的并行协作时其成功率和效率也远不及人类暴露了当前AI在时间效率规划上的巨大短板。论文: ParaCook: On Time-Efficient Planning for Multi-Agent Systems链接: https://arxiv.org/abs/2510.11608代码/数据: https://github.com/zsq259/ParaCook0为什么需要ParaCook现有的智能体基准在评测并行效率方面存在明显短板。缺乏效率指标 大多基准只关心任务是否正确完成不评估时间成本导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。场景过于简化 现有基准要么假设资源无限如AsyncHow要么只关注单智能体如Robotouille无法真正评测多智能体在资源受限下的协作与调度能力。挑战无法剥离 一些综合性基准如CookBench虽然任务长但无法将“时间效率”这一核心挑战单独分离出来进行评估。1ParaCook专为“并行效率”打造的试炼场作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境通过简化动作空间让LLM专注于核心的战略并行规划挑战。ParaCook的核心是系统性地评估两种并行能力个体并行 (Intra-Agent Parallelism) 单个智能体能否在执行“煮汤”一个自动进行、只需等待的任务时智能地切换去做“切菜”以减少空闲时间团队并行 (Inter-Agent Parallelism) 多个智能体能否高效分工例如一个去处理汉堡、一个去准备沙拉而不是互相等待或抢占同一个工作台该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度实现可扩展的评测。2核心结果LLM梯队分化且被人类完胜作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测发现了清晰的性能鸿沟。LLM性能梯队分化GPT-5遥遥领先评测数据显示不同LLM在规划能力上分为三个梯队第一梯队 (T1): GPT-5 表现最佳取得了 65.0% 的平均成功率在效率pOCT上也显著优于其他模型。第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队表现中等但在困难任务上成功率下降明显。第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳在困难任务上几乎完全失败。CoT并非万灵药仅对强模型有效思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型CoT能稳定提升其在困难任务上的表现成功率从45%提升至57%。但对于Gemini和DeepSeek等中等模型CoT的影响不稳定甚至会导致性能下降。对于Claude和Qwen等模型CoT也仅在简单任务上提供了有限的帮助。效率与成功率惨败LLM被人类完胜尽管LLM之间存在差距但它们与人类的差距是压倒性的。成功率上人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率使用CoT。效率上在困难任务上人类的“订单完成时间”(nOCT)为15.31而GPT-5则需要17.61更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动在厨房里“到处乱跑”。3LLM并非不懂规划抽象任务 vs. 具身任务为了探究LLM是真的“不会规划”还是“不会落地”作者设计了抽象规划任务(Abstract Task)——剥离所有环境交互如移动、拾取只让模型进行纯粹的调度。结果发生了惊人的反转在抽象任务上GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率其规划出的时间表与“理论最优解”相比平均只慢了1-7%。这一对比有力地证明LLM的瓶颈不在于高层的并行规划能力而在于无法将这种高层理解应用到复杂的、带有时空约束的具身Embodied环境中。4结语ParaCook 首次提供了一个系统性的基准用于评估多智能体规划中的时间效率。作者的研究揭示了尽管LLM在纯推理上很强但要实现真正高效的“手脚协同”仍有很长的路要走。这项工作为未来开发“时间效率感知”(time efficiency-aware)的智能体奠定了基础。5未来工作ParaCook 不仅是一个固定的数据集更是一个灵活的可扩展框架。未来作者可以向基准中添加新的菜谱、烹饪工具、随机事件如着火甚至设计特定布局如用桌子隔开厨房来测试更复杂的协调策略。同时该基准也为社区指明了新的研究方向。例如探索分层规划框架将高层调度与底层动作执行相分离或研究全新的算法来克服论文中发现的并行规划挑战将是极具价值的探索。更详细的实验以及研究结论欢迎参考开源代码和原论文论文原文: https://arxiv.org/abs/2510.11608开源代码/数据: https://github.com/zsq259/ParaCook
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

免费的网站模板哪里有网站的弹窗是怎么做的

Vibe Draw三维建模终极指南:从草图到3D世界的快速入门 【免费下载链接】vibe-draw 🎨 Turn your roughest sketches into stunning 3D worlds by vibe drawing 项目地址: https://gitcode.com/gh_mirrors/vi/vibe-draw 想要将简单的二维草图转化为…

张小明 2026/1/11 1:22:18 网站建设

什么做网站做个多少钱啊保险公司销售好做吗

HeyGem系统:医院如何用AI数字人高效生成健康科普视频 在一家三甲医院的宣教中心,护士长正为“高血压防治月”的宣传材料发愁——医生时间紧张,拍摄视频排期难,不同科室讲解内容还不统一。更麻烦的是,老年患者反复提问血…

张小明 2026/1/10 16:37:51 网站建设

南京网站关键词优化咨询wordpress亿级数据

3步解锁Step-Audio-Tokenizer:从零部署到企业级语音处理实战指南 【免费下载链接】Step-Audio-Tokenizer 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer 你是否正在为语音AI项目的高昂云服务成本而烦恼?企业级语音模型部署是否…

张小明 2026/1/13 0:26:11 网站建设

网站设计亮点徐州seo关键词

当你的写作任务从“2000字读后感”秒变“5000字开题报告”,又突然冒出“社团招新爆款文案”需求——别慌,你缺的不是时间,而是一个真正的“写作全能搭子”。凌晨的大学宿舍里,总在上演着相似的剧情:电脑屏幕上同时开着…

张小明 2026/1/10 13:59:55 网站建设

哈尔滨网站制作工具软件服务外包人才培养专业

量子力学中的薛定谔方程:通解、定态与本征函数特性 1. 定态薛定谔方程(TISE)的解与本征值问题 定态薛定谔方程(TISE)通常有多个解,每个解对应着不同的 $\psi(x)$ 值及其相应的本征值 $E$。为了区分不同的 $\psi_n(x)$ 并将它们与对应的本征值 $E_n$ 关联起来,我们为它…

张小明 2026/1/13 7:10:30 网站建设

网站建设方案书例子征求网站建设

波特图与奈奎斯特图:从工程直觉到理论深度的跨越你有没有遇到过这样的情况?调试一个电源环路时,示波器上一切正常,但系统一加负载就开始振荡。你想查原因,同事说:“去测下波特图。”于是你接上网络分析仪&a…

张小明 2026/1/10 16:06:18 网站建设