揭阳网站开发定制wordpress不能安装插件-河源市网站建设公司-Seo优化

揭阳网站开发定制,wordpress不能安装插件,店标在线制作免费,wordpress用户密码找回我们或多或少都听说LLM大模型是先“训练”出来#xff0c;然后再用于“推理”#xff0c;那怎么理解这个“训练”过程#xff1f; 是不是经常听说行业性场景中要使用垂域大模型#xff0c;比通用大模型效果会更好#xff0c;然后都说垂域大模型是“微调”出来的#xff0…我们或多或少都听说LLM大模型是先“训练”出来然后再用于“推理”那怎么理解这个“训练”过程是不是经常听说行业性场景中要使用垂域大模型比通用大模型效果会更好然后都说垂域大模型是“微调”出来的那么什么是“微调”和上面说的“训练”是什么关系当你尝试去深入了解这些问题时搜到的各种介绍是不是都有点深奥看到预训练、后训练、监督微调、强化学习、低秩适应、奖励模型等一堆概念是不是有点懵逼本文对这些概念和模式进行梳理汇总并结合DeepSeek和Qwen两个案例进行说明方便像我一样从信息化领域转型过来刚入门的同学也能快速了解“训练”的范围和基础逻辑。预训练Pre-Training和后训练Post-Training“训练Training”其实是多年前机器学习时代就有的概念把机器学习模型可以想象成一个包含有多元变量的数学函数公式yw1x1w2x2…wnxnb其中X1、X2…Xn就是预先选择好要参与计算的特征变量然后利用一组包含特征值x和结果值y的历史数据进行训练得到就是各个特征变量的权重系数W1、W2…Wn这样这个函数就建立起来训练出来了然后预测过程就是将新的一组变量x代入这个函数公式模型进行计算得到函数结果y就是预测值。虽然大模型本质和机器学习差异还是巨大的比如大模型的训练过程是不需要人工预先选择/设计特征x的而是自动学习提取出来的大模型的权重系数W的数量是巨大的几十亿到上万亿参数量大模型的推理是基于词向量的概率推理和机器学习这种确定性映射计算不同等。但为了便于理解我们还是可以将大模型的训练过程简单理解成以上数学函数的训练过程最终都是为了训练得到这个函数的一套权重参数只不过大模型的这个函数公式特别通用化、变量特征不固定、权重参数量特别多。这个过程就包括预训练pre-training和后训练post-train其相互关系如下预训练pre-training得到的叫基座模型可以认为是得到数学函数的一套基础权重参数可以满足一般场景的预测和推理需要。后训练post-train则是在这个基座模型基础上结合业务场景需要和行业知识数据等进一步训练最终是调整了基座模型的某些权重参数以更精准的满足具体业务场景预测和推理需要。监督微调SFT和强化学习RL后训练post-train内部又包含监督微调Supervised Fine-TuningSFT和强化学习Reinforcement LearningRL两个方向其主要实现机制对比如下先利用前文所述数学函数的例子来看看监督微调与强化学习的区别监督微调是要准备一组特征值X和结果值Y也就是所谓的标注/标签组成的数据集来进行训练通过调整函数的权重参数让它的预测值与结果值Y尽可能接近它的核心目标就是要最小化预测值与真实标签的误差而强化学习则不需要预先准备好结果值Y它只要提供输入让函数模拟计算再通过与环境的交互获得反馈奖励或惩罚通过调整参数尽可能获取奖励它的核心目标是要能最大化长期累积奖励期望值。更形象的比喻监督微调有点像刷练习题预先准备好题目和标准答案通过同类题目的反复练习和纠错调参确保碰到新题也能作对而强化学习有点像模拟考需要阅卷老师评价通过反复模拟考提升书写规范性、掌握时间分配、符合阅卷老师倾向等以尽可能得高分。如上所述监督微调Supervised Fine-TuningSFT核心是要用到精确标注的数据集而且是输入特征/输出标签成对出现的数据集比如教育领域的题目和解题方法医疗领域的症状和诊断方法法律领域的案情和判决结果等经过微调部分参数或全部参数得到一个适用于特定行业领域更精准的专有模型。这里推荐大神“智能体AI”写的《你真的了解大模型怎么“调”四种主流LLM微调方法详解》这篇文章基础逻辑讲得非常清晰按微调的代价从高到低包括全量微调Full-Tuning给基座模型“重塑金身”相当于对以上所说数学函数的权重参数w全部都调整冻结部分参数Freeze-Tunging只调“头部”参数低秩适应LoRA给基座模型加外挂配件相当于不用改模型本身参数而是通过做加法在基座模型上额外增加一些小的数学函数以确保最终预测和推理结果也能符合行业特性还有更轻量的量化低秩适应QLoRA是把基座模型先量化压缩后再做加法。强化学习Reinforcement LearningRL的核心逻辑和微调SFT差别很大它核心是通过奖励函数/奖励模型Reward Model的方式来引导大模型形成一定的“肌肉记忆”就是通过对模型输出选择某些质量维度如回答的有用性、安全性进行评价生成‌奖励分数‌来指导大模型自我优化方向举个例子可能更好理解比如我们常用的一些聊天对话大模型之所以能够提供所谓的“情绪价值”之所以不会出现暴力和涩涩的回答很大程度上是通过强化学习实现的在强化学习期间如果大模型的输出是温暖和正面的奖励模型就给它加分经过长时间的强化学习引导大模型的回答自然就会符合这些价值观和偏好。所以强化学习的核心就在于奖励模型这个才是灵魂和难度所在当然强化学习内部又还有多种策略比如RLHF人类反馈强化学习、PPO近端策略优化、GRPO群体相对策略优化等后面案例中也会有所展开。DeepSeek的模型谱系示例接下来我们用DeepSeek的模型谱系案例来理解上述预训练、监督微调和强化学习等不同训练方法的具体实践如图我们都很熟悉DeepSeek有两种比较常用的模型通用语言模型V3和推理增强模型R1这两种模型实际都是在基座模型DeepSeek-V3-Base基础上经过监督微调和强化学习出来的。和我们一般认知有所不同都说R1是基于V3的实际指的是基于V3-Base这个基座模型Foundation Model。然后用于聊天对话的V3实际也是在V3-Base基础上经过专门的后训练得出来的基于标注好的问答数据集做SFT基于强化学习评价引导等所以才能在聊天对话中提供“情绪价值”。而R1则是推理增强模型其核心也包括监督微调SFT过程利用带思维链推理过程标注的数据集也包括强化学习RL过程利用奖励模型来评分如有推理过程和格式就加分推理过程越清晰得分越多等。经过多轮次交替最终得到这种推理增强模型额外提一句R1推理模型因为有Thinking思考过程响应时间更慢一些但可解释性更强一些所以更适合复杂分析和总结的场景而需要即时响应并反馈的场景则更适合用通用语言模型V3。五一前夕出来的Qwen3模型则是一个混合推理模型可以按需开启/关闭推理思考过程。Qwen2.5-Math模型谱系示例前段时间因为要引用Qwen的数学模型Qwen2.5-Math-7B-Instruct在魔搭社区找到该模型的介绍看到其模型谱系如下如图在Qwen2.5模型基础上利用数据集“Math Corpus V2”经过预训练Pre-train得到Qwen2.5数学模型系列的基座模型“Qwen2.5-Math”。在基座模型“Qwen2.5-Math”基础上经过监督微调SFT得到Qwen2.5-Math-SFT模型这里提到SFT过程包括这段英文主要说明微调SFT过程用到了思维链CoT做法以及集成工具推理TIR的做法关键是利用“Math SFT V2”这套标注数据集实现中英文数学问题的解答。在Qwen2.5-Math-SFT模型基础上进一步进行强化学习其核心是利用“Qwen2.5-Math-RM72B”这个评价模型Reward Model同时基于‌群体相对策略优化GRPOGroup Relative Policy Optimization才最终得到我们要在业务场景中使用的模型“Qwen2.5-Math-7B-Instruct”。对这个案例有兴趣的同学可以看看魔搭上这个模型介绍的原文链接https://modelscope.cn/models/Qwen/Qwen2.5-Math-7B-Instruct顺便可以学习下英文哈。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

揭阳网站开发定制wordpress不能安装插件

网站开发php设计相关的网站有哪些内容

温州建设局老网站山东网站建设找哪家

除了红动中国还有哪些设计网站软件定制开发

做网站的流程优帮云网站建设费用应按几年摊销

电子商务及网站建设学动漫有什么出路

做图网站地图pc优化工具

揭阳网站开发定制wordpress不能安装插件

网站开发php设计相关的网站有哪些内容

温州建设局老网站山东网站建设找哪家

除了红动中国还有哪些设计网站软件定制开发

做网站的流程 优帮云网站建设费用应按几年摊销

电子商务及网站建设学动漫有什么出路

做图网站地图pc优化工具

做网站的流程优帮云网站建设费用应按几年摊销