佛山设计网站设计价格wordpress 后台登录-河源市网站建设公司-Seo优化

佛山设计网站设计价格,wordpress 后台登录,医院网站加快建设,遵义网址原文: https://mp.weixin.qq.com/s/8O7W8–x14-b1d3M9IS_3w LLM-RL往期文章推荐小白也能看懂的RL-PPO 收藏#xff01;强化学习从入门到封神#xff1a;5 本经典教材 8 大实战项目 7个免费视频#xff0c;一站式搞定小白也能看懂的RLHF#xff1a;基础篇在上一篇…原文: https://mp.weixin.qq.com/s/8O7W8–x14-b1d3M9IS_3wLLM-RL往期文章推荐小白也能看懂的RL-PPO收藏强化学习从入门到封神5 本经典教材 8 大实战项目 7个免费视频一站式搞定小白也能看懂的RLHF基础篇在上一篇小白也能看懂的RLHF基础篇中我们从直觉的层面阐述了RLHF中间有许多不严谨的地方这一篇将从更加严谨的理论层面介绍RLHF。这篇将从强化学习中的核心元素与LLM任务的对应关系开始逐步引入RLHF解决了SFT中的什么问题。再讲解RLHF具体是怎么做的如Reward Model奖励模型、Actor Model (演员模型)、Reference Model参考模型和Critic Model评论家模型这些模型各自的运行机制以及它们是如何协作完成RLHF的重点讨论了PPO算法的Actor模型、Ctritic模型的目标函数。最后结合RLHF的计算过程重温下RLHF是如何解决stf存在的问题。1. 强化学习原理强化学习Reinforcement Learning, RL作为机器学习的重要分支目标是让智能体agent与环境environment不断交互学习任意环境状态下的最优行为策略policy最终实现期望回报的最大化。形式上可通过价值函数Value Function迭代优化达成最大化期望回报。一句话总结通过探索和反馈机制在任意环境状态下给出最优决策。这里仅列出LLM与强化学习对应的核心要素见下表。强化学习核心要素RL核心要素与LLM对应关系说明智能体Agent被微调的LLM根据用户输入/提示环境状态生成响应动作环境Environment用户输入/提示Prompt 模型已经生成的内容模型根据输入内容生成响应动作Action模型生成的token模型在当前环境下做出的决策奖励Reward奖励模型RW分数衡量模型生成文本的质量与偏好指导模型优化只在模型输出最后一个token才会打分其他分数为0。价值函数Value FunctionRLHF中的Critic Model评论家模型模型输出每个token后继续采用当前策略能带来多大的未来收益对于强化学习中的其他元素可参考小白也能看懂的RL-PPO。2. SFT之后为什么还需要RLHF在小白也能看懂的RLHF基础篇中从两个角度阐述为什么RLHF对LLM这么重要a) sft的局限性: 如标注数据覆盖范围有限、无法融入人能价值观b) RLHF是LLM微调的新范式让模型边学遍有人类导师指导根据导师的偏好调整模型参数。但并没有介绍为什可以这样做这篇将从更底层的角度探讨SFT之后为什么还需要RLHF。2.1 负反馈缺失的代价如下图所示我们将STF和RLHF类比学生模型解题的过程SFT相当于学生已经拿到了老师的答案先看一遍答案再模仿老师的答案RLHF就像奋发图强的学霸党决心绝不看老师的答案自己尝试解题老师根据解题步骤和结果打分学生根据老师的反馈奖励分数不断内化自己的知识调整模型参数优化解决思路。本质上 SFT是将模型输出的概率分布接近标准答案学习的模式是根据前文的信息预测下一个token即P ( E ∣ A B C D ) P(E|ABCD)P(E∣ABCD)让下个tokenE EE越接近标准答案越好但它并不知道什么样的token是不能生成的这就是负反馈缺失的代价。这会导致一个现象为了和标准答案相似模型可能会认为P ( E ∣ A C D ) P(E|ACD)P(E∣ACD)、P ( E ∣ A B D ) P(E|ABD)P(E∣ABD)等也该被提高概率但没有反馈机制告诉模型: “你这样回答虽然看着很像其实并不对下次不要这样干”。以P ( E ∣ A C D ) P(E|ACD)P(E∣ACD)为例缺失的token B和加上B token完全可能是相反的意思。RLHF有负反馈啊就是reward model具体算法上怎么做的下文有讲解。直觉上理解就像学生练习做题做对了老师给满分中间结果对给个步骤分做错了给零分还会在习题册上告诉你错哪里了。2.2 loss计算的本质SFT在预测下个tokenE EE时只会参考A B C D ABCDABCD这些前文信息不具备向后看的能力即不会预测当前这个token对回答最终效果的影响每个token的loss是平均的。换句话说SFT是一种局部的、有偏的训练方法。RLHF则不同它具有全局观、微观视角。全局方面RLHF首先会评估模型回答的整体效果是好还是坏。微观方面计算单个token对未来的影响程度即从此刻开始到整个句子结束能够带来多大的收益让模型能够从未来的视角审视此刻更应该输出哪个token每个token的loss权重是不同的。简单的说RLHF是全局的、加权的训练方法至于怎么加权后面会有解释。3. RLHF执行过程下图是DeepSpeed-Chat中完整的 RLHF 训练流水线严格遵循 InstructGPT 的三阶段训练逻辑SFT、RW和PPO。在正式介绍RLHF之前我们先了解下RL-PPO中的四大模型Actor Model (演员模型π θ \pi_{\theta}πθ)用SFT后的模型作为初始模型通过PPO训练调整参数得到最终的模型使其生成的回答更符合人类偏好参数可变Reference Model参考模型π b a s e \pi_{base}πbaseSFT后的模型用于限制Actor Model不要偏离Reference Model太远参数冻结Reward Model奖励模型r θ r_{\theta}rθ对模型回答打分表示贴合人类偏好的程度训练完后在PPO中是参数冻结的Critic Model评论家模型V t V_{t}Vt用于预测期望总收益为优势函数A t A_{t}At提供基线使策略更新更稳定参数可变3.1 有监督微调Supervised Finetuning, SFT让预训练模型学习人类如何回应查询建立基础的指令遵循能力。具体的执行过程如下数据输入筛选高质量的人类查询人类回应标注数据对例如各类问答、指令任务数据。微调过程使用这些标注数据对预训练语言模型进行微调使模型输出贴合人类的回答风格和逻辑而非单纯的文本续写。输出产物得到 SFT 模型即PPO阶段中演员模型Actor Model的初始版本具备基础的指令理解和回应能力。3.2 奖励模型训练Reward Model, RW我们知道RLHF的终极目标是让模型学会按人类喜好作出回答为了实现这个目标需要有个模型评估模型生成内容的好坏这就是奖励模型Reward Model, RW要干的活。RW模型训练的大体过程提供一组提示让LLM生成多个回答由人工按照既定的规则对同个问题的多个回答排序利用标注好的排序数据训练一个可量化人类偏好的RW。假设有个问题x xx模型给出两个不同的回答由人工标注两种回答y y^y为好的回答y − y^-y−为不好的回答。我们希望训练出的RW模型r ( . ) r(.)r(.)能打出和人类一致的分数即r ( x , y ) r ( x , y − ) r(x, y^) r(x, y^-)r(x,y)r(x,y−)基于概率形式的目标函数为P ( y y − ∣ x ) σ ( r ( x , y ) − r ( x , y − ) ) P(y^ y^- | x) \sigma(r(x, y^)-r(x, y^-) )P(yy−∣x)σ(r(x,y)−r(x,y−))其中σ \sigmaσ是 sigmoid 函数取值范围为0-1之间r ( x , y ) − r ( x , y − ) r(x, y^)-r(x, y^-)r(x,y)−r(x,y−)差值越大概率越接近1说明RW更有可能选择好的答案。基于所有样本的损失函数为L R W ( θ ) − E ( x , y , y − ) ∼ D p r e f [ l o g σ ( r ( x , y ) − r ( x , y − ) ) ] \begin{align} L^{RW}(\theta) -E_{(x, y^, y^-) \sim {D_{pref}}} [log\sigma(r(x, y^)-r(x, y^-) )] \end {align}LRW(θ)−E(x,y,y−)∼Dpref[logσ(r(x,y)−r(x,y−))]这样我们就能训练出一个RW模型识别模型输出内容的好坏分数越高表示模型输出内容越贴合人类偏好。3.3 PPO微调Proximal Policy OptimizationPPO以奖励模型的评分为反馈通过RL-PPO进一步优化 SFT 后的模型使其生成的回答更符合人类偏好。1. 输入提示x xx到参考模型π b a s e \pi_{base}πbase旧策略和当前微调的模型π θ \pi_{\theta}πθ新策略对应上图中的π P P O \pi_{PPO}πPPO。得到token序列y ∼ π b a s e ( . ∣ x ) y ∼ π θ ( . ∣ x ) y_{} \sim \pi_{base}(.|x)y \sim \pi_{\theta}(.|x)y∼πbase(.∣x)y∼πθ(.∣x)。2. 计算奖励分数将微调模型π θ \pi_{\theta}πθ生成的序列y yy输入到奖励模型Reward Model, RW得到奖励分数r θ ( x , y ) r_{\theta}(x, y)rθ(x,y)。3. 评论家模型预测V t V_{t}Vt根据价值函数V t V_{t}Vt和奖励分数r θ ( x , y ) r_{\theta}(x, y)rθ(x,y)计算优势A t A_{t}At用以评估微调模型π θ \pi_{\theta}πθ本次输出的token比随机输出的优劣辅助PPO决定该惩罚、奖励程度让模型π θ \pi_{\theta}πθ的训练更稳健。4. PPO更新模型π θ \pi_{\theta}πθ参数这里为了防止策略模型π θ \pi_{\theta}πθ过度偏离参考模型π b a s e \pi_{base}πbase有两种形式保证模型在有限的空间里微调参数一种是引入PPO-KL散度L P P O − K L ( θ ) E τ ∼ π b a s e t [ π θ ( a t ∣ s t ) π b a s e ( a t ∣ s t ) A t − β D K L ( π b a s e ( . ∣ x t ) ∣ ∣ π θ ( . ∣ x t ) ) ] \begin{align} L^{PPO-KL}(\theta) E_{\tau \sim {\pi_{base}}}^t [\frac{\pi_\theta(a_t | s_t)}{\pi_{base}(a_t | s_t)} A_{t} - \beta D_{KL}(\pi_{base}(.|x_t) || \pi_{\theta}(.|x_t))] \end {align}LPPO−KL(θ)Eτ∼πbaset[πbase(at∣st)πθ(at∣st)At−βDKL(πbase(.∣xt)∣∣πθ(.∣xt))]另一种PPO-CLIP比较直接在目标函数中限制新旧模型的差距在约定的区间内L p p o − c l i p ( θ ) E τ ∼ π b a s e t [ m i n ( π θ ( a t ∣ s t ) π b a s e ( a t ∣ s t ) A t , c l i p ( π θ ( a t ∣ s t ) π b a s e ( a t ∣ s t ) , 1 − ε , 1 ε ) A t ) ] \begin{align} L^{ppo-clip}(\theta)E_{\tau \sim {\pi_{base}}}^t [min( \frac{\pi_\theta(a_t | s_t)}{\pi_{base}(a_t | s_t)} A_{t}, \ \ clip(\frac{\pi_\theta(a_t | s_t)}{\pi_{base}(a_t | s_t)}, 1-\varepsilon,1\varepsilon)A_{t})] \end {align}Lppo−clip(θ)Eτ∼πbaset[min(πbase(at∣st)πθ(at∣st)At,clip(πbase(at∣st)πθ(at∣st),1−ε,1ε)At)]4. PPO目标函数拆解这节会为大家梳理下PPO公式2或3各个部分的具体含义。顺便提下大家可能看到很多博主的文章会按照「策略梯度」 - 「REINFORCE」- 「Actor-Critic算法」 - 「Actor-Critic算法的各种优化方法」的思路讲解最后再给出PPO的公式。回头再看前面的内容可能和PPO的公式有较大差异这里提醒下大家这种讲法是为了帮助RL小白更好的理解PPO内容从RL的发展历程来说的。这篇博文采用相反的思路先给大家介绍「为什么会需要RLHF」 - 「RLHF的执行步骤」 - 「RLHF的底层原理」跳过中间复杂的推导过程如果相对RL进一步了解请看小白也能看懂的RL-PPO 。接下来将详细介绍下RLHF中的PPO底层原理。4.1 重要性采样在强化学习中策略π θ \pi_{\theta}πθ的参数更新通过从环境中采集的数据训练得到的。但直接用新策略π θ \pi_{\theta}πθ进行采样效率低下需要更新一次参数生成一次训练数据。为此PPO采用重要性采样技术利用旧策略π b a s e \pi_{base}πbase下采集的数据来估计新策略的期望。简单来说公式π θ ( a t ∣ s t ) π b a s e ( a t ∣ s t ) \frac{\pi_\theta(a_t | s_t)}{\pi_{base}(a_t | s_t)}πbase(at∣st)πθ(at∣st)即为重要性采样比率。其中π θ ( a t ∣ s t ) \pi_\theta(a_t | s_t)πθ(at∣st)和π b a s e ( a t ∣ s t ) \pi_{base}(a_t | s_t)πbase(at∣st)分别表示新旧策略。在该比率的调配下PPO能够重复利用旧策略下的采样数据使其适用于新策略的更新从而提高数据利用率。4.2 优势函数对于NLP任务来说优势函数A t A_{t}At用于评估状态动作对的相对优劣程度衡量在给定的状态用户输入/提示Prompt 模型已经生成的内容下Actor 模型π θ \pi_{\theta}πθ选取的动作token相对于随机选取的优劣引导Actor 模型π θ \pi_{\theta}πθ向更优的方向调整即提高A t A_{t}At为正的动作概率降低A t A_{t}At为负的动作概率。在实际应用中优势函数A t A_{t}At的定义如下A t R t γ ∗ V t 1 − V t \begin{align} A_t R_t \gamma*V_{t1} - V_t \end{align}AtRtγ∗Vt1−Vt其中A t R t γ ∗ V t 1 A_t R_t \gamma*V_{t1}AtRtγ∗Vt1表示按Actor 模型π θ \pi_{\theta}πθ在t tt时刻选择某个token后能够获取的实际收益V t V_{t}Vt为Actor 模型为随机选择某个token后Critic模型预估的整体收益。R t R_{t}Rt表示 Actor 模型产生每个token带来的即时收益。需要注意的是R t R_{t}Rt的设计不止一种例如可以将t T tTtT时替换成所有token的即时奖励的平均值这里以deepspeed-chat的RLHF为例R t { − k l _ c t l ∗ ( l o g P θ ( a t ∣ s t ) P b a s e ( a t ∣ s t ) ) , t ̸ T − k l _ c t l ∗ ( l o g P θ ( a t ∣ s t ) P b a s e ( a t ∣ s t ) ) r θ , t T \begin{align} R_t \begin{cases} -kl\_ctl *(log\frac{P_\theta(a_t | s_t)}{P_{base}(a_t | s_t)}), \text t\not T \\ -kl\_ctl *(log\frac{P_\theta(a_t | s_t)}{P_{base}(a_t | s_t)}) r_\theta, \text tT \end{cases} \end{align}Rt{−kl_ctl∗(logPbase(at∣st)Pθ(at∣st)),−kl_ctl∗(logPbase(at∣st)Pθ(at∣st))rθ,tTtTk l _ c t l kl\_ctlkl_ctl: 用以控制比例的缩放因子是个常量默认为0.1l o g P θ ( a t ∣ s t ) P b a s e ( a t ∣ s t ) log\frac{P_\theta(a_t | s_t)}{P_{base}(a_t | s_t)}logPbase(at∣st)Pθ(at∣st): 可以理解为公式2后半部分的KL散度如3.3部分中介绍的那样主要为了防止 Actor Model 偏离Reference Model太远r θ r_{\theta}rθReward Model对整个句子的回答打分我们再仔细研究下公式5可以得出以下结论在t ̸ T t\notTtT时PPO算法应关注 Actor 模型是否在 Reference 模型的约束下生成 token在t T tTtT时PPO算法除了关注 Reference 模型约束还关注生成的整个句子符合人类偏好的程度r θ r_{\theta}rθ从公式4可以看出这里通过引入基于参考基线V t V_{t}Vt的优势函数引导Actor模型向更优的方向调整相当于借鉴了时序差分 (Temporal-Difference, TD) 方法该方法存在低方差高偏差的问题。为进一步平衡方差和偏差可以结合蒙特卡罗(Monte-Calo, MC)引入对未来优势的考虑也就是广义优势估计Generalized Advantage Estimation, GAE。为了更方便描述这里对公式4改写δ t R t γ ∗ V t 1 − V t \begin{align} \delta_t R_t \gamma*V_{t1} - V_t \end{align}δtRtγ∗Vt1−Vt将优势函数改写为A d v t Adv_{t}AdvtA d v t δ t γ ∗ λ ∗ A d v t 1 \begin{align} Adv_t \delta_t \gamma* \lambda*Adv_{t1} \end{align}Advtδtγ∗λ∗Advt1公式7在实际使用中会采用动态规划的方式计算首先计算最后时刻的A d v T Adv_{T}AdvT对应的未来收益V T 1 V_{T1}VT1和未来优势A d v T 1 Adv_{T1}AdvT1均为0则A d v T R T − V T Adv_{T} R_T - V_TAdvTRT−VT对于T − 1 , T − 2 , . . . , t T-1, T-2, ..., tT−1,T−2,...,t时刻可以通过公式7不断迭加后面时间步上的优势函数就可以平衡真实奖励所带来的高方差和使用价值函数所带来的高偏差。4.3 评论家模型V t V_{t}Vt的损失函数$$\begin{align}L^{Critic}({\phi}) E_t [(R_t \gamma V_{t1} - V_t)^2]\end {align}$$V t V_{t}Vt: Critic 模型对t tt时刻收益的预估即未来和即时收益的整体预估R t γ ∗ V t 1 R_t \gamma*V_{t1}Rtγ∗Vt1: 计算得到的即时收益R t R_{t}RtCritic 模型预测出t 1 t1t1时刻之后的折损收益5. 再谈RLHF对LLM的重要性现在我们结合第3、4部分的内容尝试从算法的底层原理解释下第2部分提到的RLHF重要性a) 负反馈机制 b) loss计算的优势。5.1 RLHF是如何负反馈的从公式2或3可以看出RLHF是通过优势函数A d v t Adv_{t}Advt对模型的回答进行正负反馈的当A d v t Adv_{t}Advt为正时提高Actor对应动作的概率相反降低Actor对应动作的概率这个A d v t Adv_{t}Advt函数就扮演着老师的角色对学生的答题过程打分并及时纠正学生错误的解题思路。更细致的说首先看学生是否答题完整如果完整通过RW模型给个整体分数否则RW模型打0分对应公式5的计算过程。之后通过A d v t Adv_{t}Advt中的即时反馈δ t \delta_{t}δt查看解题步骤中是否有亮点、或严重错误在RW的基础上加、减分数。5.2 loss计算的优势在2.2小节中说到RLHF的loss具有全局、微观的视角同时具有向后看的能力。这里的全局视角就是在loss函数中融入了RW模型的打分r θ r_{\theta}rθ让Actor模型知道本次响应整体效果如何。微观的视角通过A d v t Adv_{t}Advt函数计算每个token的即时反馈δ t R t γ ∗ V t 1 − V t \delta_t R_t \gamma*V_{t1} - V_tδtRtγ∗Vt1−Vt公式6及未来的影响γ ∗ λ ∗ A d v t 1 \gamma* \lambda*Adv_{t1}γ∗λ∗Advt1公式7γ ∗ λ ∗ A d v t 1 \gamma* \lambda*Adv_{t1}γ∗λ∗Advt1可以让模型具备向后审视的能力即模型本次输出的token对未来能够带来多大的收益。结合7可以发现对于不同的token公式2或3中的loss权重是不同的。本文是RL系列内容的第三篇从原理层面阐述了RLHF下一篇我们将介绍常用的RLHF方法敬请期待。参考资料Illustrating Reinforcement Learning from Human Feedback (RLHF)DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales大语言模型 RLHF 全链路揭秘从策略梯度、PPO、GAE 到 DPO 的实战指南图解大模型RLHF系列之人人都能看懂的PPO原理与源码解读大模型中的强化学习

佛山设计网站设计价格wordpress 后台登录

手机网站开发库企业信用等级查询系统

找生意做去哪个网站如何做好网站开发项目需求分析

外贸网站外链交换wordpress 课程插件

深圳做app网站哈尔滨住房城乡建设局网站首页

如何做网站menu菜单渐江建工水利水电建设有限公司网站

石家庄做网站公司舟山手机网站建设

佛山设计网站设计价格wordpress 后台登录

手机网站开发库企业信用等级查询系统

找生意做去哪个网站如何做好网站开发项目需求分析

外贸 网站外链交换wordpress 课程插件

深圳做app网站哈尔滨住房城乡建设局网站首页

如何做网站menu菜单渐江建工水利水电建设有限公司网站

石家庄做网站公司舟山手机网站建设

外贸网站外链交换wordpress 课程插件