网站屏蔽右键破解定制网站开发哪家强-河源市网站建设公司-Seo优化

网站屏蔽右键破解,定制网站开发哪家强,最近新闻小学生摘抄,中信建设有限责任公司人力资源部前言最近翻阅了50篇vlaRL的工作#xff0c;很多我博客内已经解读过#xff0c;很多我暂时还无意解读#xff0c;除了本文要介绍的PLD 除外本文#xff0c;特地解读下该PLD工作第一部分自我改进的VLA#xff1a;通过残差强化学习进行数据生成的模型 1.1 引言与相关…前言最近翻阅了50篇vlaRL的工作很多我博客内已经解读过很多我暂时还无意解读除了本文要介绍的PLD 除外本文特地解读下该PLD工作第一部分自我改进的VLA通过残差强化学习进行数据生成的模型1.1 引言与相关工作1.1.1 引言如原论文所述采集高质量的机器人示范既昂贵又耗费人力使得大规模数据集更加难以获取即便能够获得这类数据它们也往往是通过与最终部署的 VLA 策略解耦的远程操作流水线采集的从而在覆盖范围上留下关键空白人工操作员必须手动预判并纠正故障模式但他们给出的示范很少真正反映策略在部署时会遇到的真实状态分布因此尽管 SFT 能够可靠地提升其训练任务上的性能业界对于这些收益能否、以及在多大程度上能够迁移到新的任务和环境上仍缺乏充分理解这些挑战引出了以下问题VLA 模型能否在仅需极少人力投入的情况下利用由 RL 甄选的数据来自我提升具体来说这种自策划的数据训练能否在分布内和分布外场景中都达到或超越基于人类专家oracle遥操作数据进行SFT微调的效果作者的核心观察是数据收集不应与基础策略相互独立负责收集数据的策略与通才模型必须相互交互这样一来探索过程才能利用通才模型的先验知识且所收集的数据能够与其轨迹分布保持一致一种自然而然的方式是在实现这一想法的一种方式是使用强化学习RL来获取面向特定任务的专家以指导数据收集。然而在这一设定下应用RL会受到两个关键挑战的阻碍其一语言条件操控任务中的稀疏奖励信号会导致RL不稳定且样本效率低下其二将任务特定专家与通才模型分开独立训练会引入分布不匹配问题而且一旦这些专家收敛其行为往往缺乏为SFT提供稳健覆盖所需的多样性说白了泛化性会有限对此来自的研究者提出了 PLD这是一条包含三个阶段的后训练流水线阶段1在线专家获取作者冻结 VLA 主干网络并通过样本效率高的离线策略 RLoff-policy RL为多个任务训练若干轻量级残差 actor使它们能够在任意状态“接管”基础策略并在任务上取得超过 99% 的成功率阶段 2自动数据收集作者提出一种混合 rollout 方案使残差接管更偏向于基础模型经常访问的状态从而在捕获恢复行为的同时缓解分布偏移阶段 3监督微调通过 SFT 将为多个任务收集的数据蒸馏回基础模型中该过程与 VLA 架构无关同时支持 flow-matching 和 auto regressiveaction headBlack et al., 2024; Kim et al., 2024借助 PLD可以通过 VLA 引导的探索高效获取面向特定任务的 RL 专家。随后VLA 利用 PLD 数据得到进一步提升在 LIBERO 基准上实现了超过 99% 的性能1.1.2 相关工作// 待更1.1.3 预备知识任务形式化、有监督微调、基于目标的强化学习Goal-Conditioned RL首先对于任务形式化而言作者研究在稀疏二元奖励条件下、使用视觉-语言-动作VLA模型作为基础策略类别的语言条件操纵任务假设一个具有时间跨度的部分可观测控制过程在受限的时间上限内任务成功时一个回合将终止并复位。在每个回合结束后会被分配一个奖励令表示目标描述的语言提示并令表示由机器人本体感觉(例如关节角)和RGB 图像输入组成的部分观测————策略以为输入并输出一个7 自由度动作(6自由度位姿增量和1 自由度连续夹爪指令)作者将其表示为其中是视觉-语言骨干网络是动作头与近期VLA 模型一致由三种常见家族之一实例化i) 用于连续控制的扩散头ii) 流式动作头(Ghosh et al., 2024; Black et al., 2024)(iii) 用于自回归解码的离散动作分词器(Kim et al.,2024; Pertsch et al.,2025)最后通过调节和以最大化成功率其次对于有监督微调而言给定一个VLA 策略和一个演示数据集其中包含观测、目标描述和专家动作SFT 通过最大化条件动作似然来适配该策略令其标准目标是行为克隆(BC)损失在当代VLA 系统中损失的具体形式依赖于动作头的架构自回归/token 动作头Kim et al., 2024; Pertsch et al., 2025通过对动作token的序列NLL 进行训练随着近期工作通过动作分块与并行解码提升效率以及通过由回归目标训练得到的连续动作参数化Kim 等2025扩散头将动作建模为条件去噪过程并通过得分匹配的均方误差MSE进行训练在推理时实现迭代采样(Ghosh et al., 2024; Chi et al., 2024)。Flow-matching 头部学习一个连续的速度场将先验运输到动作分布中使用flow-matching 损失进行训练并且通常与VLM 骨干网络配合以实现语义上有依据的控制(Black et al., 2024; 2025)————在这些头部中SFT 仍然是使用适量标注机器人数据将通用策略专门化到新的具身形式和任务上的标准机制(Kim et al., 2024; 2025)最后对于基于目标的强化学习Goal-Conditioned RL作者将连续控制建模为一个MDP其中状态空间为S 动作空间为A 转移动态为初始状态分布为奖励函数为折扣因子为在目标条件设定中每个任务由从采样得到的目标变量指定此时奖励变为依赖目标的策略为记为将GCRL 视为在上具有静态目标的扩展MDP 是很方便的在无限时域设定下RL 的目标是在本文中作者考虑稀疏二元奖励设置即是通过关于目标相关表征、度量以及容差的成功谓词来定义的1.2 PLD的完整方法论尽管近期工作探索对大型 VLA 进行直接的 RL 微调Mark et al., 2024; Dong et al., 2025b此类范式即便只用于单任务微调也可能极其耗费资源例如在 batch size 为 8 的设置下OpenVLA-OFT 在进行 LIBERO 训练时每块 GPU 需要约 62.5 GB 显存Kim et al., 2025与此同时这些方法在异构设置下能否平滑扩展到多任务微调仍不明确因此作者选择采用一个解耦式流水线冻结基础策略并使用样本效率较高的离策略 RL(高斯策略参数化)来学习一个轻量级的残差动作策略然后通过在预设的“基础策略探测”步数之后让该残差策略“接管”控制来收集专家数据最后通过 SFT 将这些技能蒸馏回基础模型并将该通用模型部署到多样化的操作任务上。PLD 的整体概览如图 3 所示1.2.1 通过策略先验热启动实现数据高效强化学习在先前利用先验数据实现样本高效RL 的成功工作基础上(Ball et al., 2023)RLPD的介绍详见此文《RLPD——利用离线数据实现高效的在线RL不进行离线RL预训练直接应用离策略方法SAC在线学习时对称采样离线数据》RLPD『Ball等2023即Efficient online reinforcement learning with offline data相当于利用离线数据实现高效的在线RL即Online RL with Offline Data』之所以选择它是因为其样本效率高且能够融合先验数据该工作关注的是是否可以在在线学习时直接应用现有的离策略方法以充分利用离线数据作者从头开始在线强化学习同时将离线数据包含在回放缓冲区中从而展示了online off-policy RL algorithms利用离线数据进行学习时表现出极高的效率且在每一步训练中RLPD 在先验(离线)数据和on-policy数据之间等概率采样以形成一个训练批次「Song等2023——Hybrid RL: Using both offline and online data can make RL efficient」即“对称采样”即每个批次有50%的数据来自(在线)回放缓冲区另外50%来自离线数据缓冲区「We call this ‘symmetric sampling’, whereby for each batch we sample 50% of the data from our replay buffer, and the remaining 50% fromthe offline data buffer」作者考虑一个off-policy actor-critic 框架并为离线和在线经验回放分别维护两个独立的缓冲区首先用来自基础策略的成功轨迹填充离线缓冲区。这个过程起到了重要性采样的作用只保留成功尝试在训练过程中离线和在线经验将被对称地回放例如小批量数据由两个缓冲区中数量相等的样本组成从而确保价值函数持续在高价值的状态-动作对上进行训练在实践中作者训练一个针对特定任务的残差动作模块其条件为。作者利用在基础策略行为附近进行探索在 Q 函数的引导下主动寻找更优的解为调节探索并避免在初始阶段与偏离过大作者将增量动作的幅度缩放到其中由调度器进行调节————这样设计有两点原因首先尽管基础策略无法对未见过的操作任务或场景做到完美泛化但它能够对任务给出合理的求解尝试从而为探索提供一个有用的初始化此外直接训练表达能力很强的基础策略例如 flow action heads以最大化 Q 值可能极其困难Mark et al., 2024相较之下残差高斯策略可以通过任意现成的 off-policy 强化学习算法轻松训练与一起还可以得到通过策略迭代和 TD-learningSutton Barto, 2018学习得到的动作价值函数如式2所示其中是组合策略为了稳定离策略学习并减轻遗忘作者引入一个预热阶段在该阶段仅使用进行数据收集这与Zhou et al., 2024b类似同时Q 函数通过诸如 Cal-QLNakamotoet al., 2024之类的保守目标进行初始化重要的是作者不会在策略损失中显式施加行为约束从而使得到的专家策略更少受到数据质量或基础策略性能的影响// 待更

网站屏蔽右键破解定制网站开发哪家强

淘宝客网站如何让做做京挑客的网站

网站备案注销申请表太仓网页制作招聘

请问怎么做网站营销技巧在线观看

济宁建设网站首页怎样在小程序开店

比较好的网站开发团队做网站用什么主机好

动漫制作专业有前途吗百度seo免费推广教程