通辽做网站的公司大连搜狗推广-河源市网站建设公司-Seo优化

通辽做网站的公司,大连搜狗推广,购物系统简介,做外贸进国外网站当今的⼤语⾔模型#xff08;LLM#xff09;智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。但现有评测⼤多只关注“任务是否完成”#xff0c;却忽视了⼀个核⼼问题#xff1a;“完成任务花了多⻓时间#xff1f;”。在多智能体协作时#xff0c;这种对“时间效率”…当今的⼤语⾔模型LLM智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。但现有评测⼤多只关注“任务是否完成”却忽视了⼀个核⼼问题“完成任务花了多⻓时间”。在多智能体协作时这种对“时间效率”的忽视尤为致命。为此作者提出了 ParaCook一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现即便是GPT-5这样的顶级模型在面对复杂的并行协作时其成功率和效率也远不及人类暴露了当前AI在时间效率规划上的巨大短板。论文: ParaCook: On Time-Efficient Planning for Multi-Agent Systems链接: https://arxiv.org/abs/2510.11608代码/数据: https://github.com/zsq259/ParaCook0为什么需要ParaCook现有的智能体基准在评测并行效率方面存在明显短板。缺乏效率指标大多基准只关心任务是否正确完成不评估时间成本导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。场景过于简化现有基准要么假设资源无限如AsyncHow要么只关注单智能体如Robotouille无法真正评测多智能体在资源受限下的协作与调度能力。挑战无法剥离一些综合性基准如CookBench虽然任务长但无法将“时间效率”这一核心挑战单独分离出来进行评估。1ParaCook专为“并行效率”打造的试炼场作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境通过简化动作空间让LLM专注于核心的战略并行规划挑战。ParaCook的核心是系统性地评估两种并行能力个体并行 (Intra-Agent Parallelism) 单个智能体能否在执行“煮汤”一个自动进行、只需等待的任务时智能地切换去做“切菜”以减少空闲时间团队并行 (Inter-Agent Parallelism) 多个智能体能否高效分工例如一个去处理汉堡、一个去准备沙拉而不是互相等待或抢占同一个工作台该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度实现可扩展的评测。2核心结果LLM梯队分化且被人类完胜作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测发现了清晰的性能鸿沟。LLM性能梯队分化GPT-5遥遥领先评测数据显示不同LLM在规划能力上分为三个梯队第一梯队 (T1): GPT-5 表现最佳取得了 65.0% 的平均成功率在效率pOCT上也显著优于其他模型。第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队表现中等但在困难任务上成功率下降明显。第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳在困难任务上几乎完全失败。CoT并非万灵药仅对强模型有效思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型CoT能稳定提升其在困难任务上的表现成功率从45%提升至57%。但对于Gemini和DeepSeek等中等模型CoT的影响不稳定甚至会导致性能下降。对于Claude和Qwen等模型CoT也仅在简单任务上提供了有限的帮助。效率与成功率惨败LLM被人类完胜尽管LLM之间存在差距但它们与人类的差距是压倒性的。成功率上人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率使用CoT。效率上在困难任务上人类的“订单完成时间”(nOCT)为15.31而GPT-5则需要17.61更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动在厨房里“到处乱跑”。3LLM并非不懂规划抽象任务 vs. 具身任务为了探究LLM是真的“不会规划”还是“不会落地”作者设计了抽象规划任务(Abstract Task)——剥离所有环境交互如移动、拾取只让模型进行纯粹的调度。结果发生了惊人的反转在抽象任务上GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率其规划出的时间表与“理论最优解”相比平均只慢了1-7%。这一对比有力地证明LLM的瓶颈不在于高层的并行规划能力而在于无法将这种高层理解应用到复杂的、带有时空约束的具身Embodied环境中。4结语ParaCook 首次提供了一个系统性的基准用于评估多智能体规划中的时间效率。作者的研究揭示了尽管LLM在纯推理上很强但要实现真正高效的“手脚协同”仍有很长的路要走。这项工作为未来开发“时间效率感知”(time efficiency-aware)的智能体奠定了基础。5未来工作ParaCook 不仅是一个固定的数据集更是一个灵活的可扩展框架。未来作者可以向基准中添加新的菜谱、烹饪工具、随机事件如着火甚至设计特定布局如用桌子隔开厨房来测试更复杂的协调策略。同时该基准也为社区指明了新的研究方向。例如探索分层规划框架将高层调度与底层动作执行相分离或研究全新的算法来克服论文中发现的并行规划挑战将是极具价值的探索。更详细的实验以及研究结论欢迎参考开源代码和原论文论文原文: https://arxiv.org/abs/2510.11608开源代码/数据: https://github.com/zsq259/ParaCook

通辽做网站的公司大连搜狗推广

免费的网站模板哪里有网站的弹窗是怎么做的

什么做网站做个多少钱啊保险公司销售好做吗

南京网站关键词优化咨询wordpress亿级数据

网站设计亮点徐州seo关键词

哈尔滨网站制作工具软件服务外包人才培养专业

网站建设方案书例子征求网站建设