wordpress付费站内搜索莱芜金点子招聘网最新招聘-河源市网站建设公司-Seo优化

wordpress付费站内搜索,莱芜金点子招聘网最新招聘,walker wordpress,免费做网站空间编者按#xff1a; 如何在资源受限的设备上高效部署大语言模型#xff0c;同时还尽可能保持其性能表现#xff1f; 我们今天为大家带来的这篇文章#xff0c;作者的核心观点是#xff1a;量化技术通过在模型精度与效率之间寻找最优平衡点#xff0c;使得大语言模型能够在…编者按如何在资源受限的设备上高效部署大语言模型同时还尽可能保持其性能表现我们今天为大家带来的这篇文章作者的核心观点是量化技术通过在模型精度与效率之间寻找最优平衡点使得大语言模型能够在资源受限的设备上高效部署而几乎不降低其“智能水平”。文章从量化的基本原理出发深入剖析了训练后量化PTQ与量化感知训练QAT的适用场景详细解释了缩放因子、零点、对称/非对称量化等关键技术细节并进一步探讨了高级量化技术如 GPTQ、AWQ、SmoothQuant以及 KV 缓存量化等前沿方法。作者还结合实战经验梳理出一套可落地的量化工作流并展示了量化在端侧 AI、低成本云部署、长上下文处理等场景中的巨大价值。作者 | Bhavishya Pandit编译 | 岳扬像我们这样的大语言模型多少有点“养尊处优”。我们钟爱庞大的参数规模、海量的内存和强悍的 GPU。但当有人试图在手机或配备低性能 GPU 的笔记本电脑上运行我们时现实便会毫不留情地给我们一记耳光。工程师们如何确保我们在微型设备上依然能流畅智能地运行答案就是量化技术quantization —— 它是现代 AI 模型部署中的一项核心技术。让我们花点时间真正理解它。01 什么是量化技术量化的本质在于降低数值的存储精度。LLM的所有运算都离不开数字——每个权重参数、每次激活值、每一个注意力分数全都建立在浮点数运算之上。这些数值流畅、连续、无限精确。但计算机呢它们更喜欢固定、离散的存储单元比如整数而不是高精度浮点数。要么你的数据能塞进去要么就塞不进去。就像你试图把整个衣柜塞进一个登机箱一样装得下就装装不下就没办法。这时候量化技术站出来说“嘿大语言模型如果每个数字不再使用 32 位精度而是砍到 8 位甚至 4 位呢你几乎察觉不到差别但我们能省下大量内存。”32 位浮点数FP32→ 黄金标准8 位整数INT8→ 依然智能体积要小得多4 位整数INT4→ 超紧凑只是稍微健忘一点好吧但大语言模型为什么要在乎这个因为现在的 LLM 实在太臃肿了。数十亿参数需要数十亿个数字。一个 70B 参数的模型若用 FP32 表示需要 280 GB——这已经不是模型了这是存储灾难。量化能把这种情况“我得靠一整个服务器集群才能跑这个东西”变成这样“嘿我或许能在笔记本上运行它甚至在手机上也行”本质上这就是 AI 模型的瘦身方案 ——在保持智能的前提下剔除冗余数据。但是压缩数字精度不会损害模型质量吗有时候确实会。但量化的精髓也是整门技术的重点在于在模型最不敏感的地方降低精度在模型最核心的地方保留准确性02 量化在大语言模型生命周期中的位置训练 vs 推理在我搞清楚“量化是什么”之后下一个问题便接踵而至“挺酷的但我们到底什么时候做量化是在训练期间训练之后还是两个阶段都需要”事实证明时机的选择非常关键因为大语言模型非常挑剔。你是在它们学习过程中就引入量化还是等它们已经记牢所有模式后再量化表现会大不相同。2.1 训练后量化Post-Training Quantization, PTQ可以把 PTQ 想象成给模型贴一张便利贴提醒“嘿我要把你的某些数字四舍五入了试着适应一下。”你直接拿一个已经完全训练好的模型然后进行FP32 → INT8 或 INT4可能还会用一些花哨的取整技巧优点是快速又便宜无需重新训练一个 70B 参数的庞然大物易于实验可以先试试 INT8看模型是否撑得住再大胆尝试更低精度缺点是我是吃了亏才明白的精度可能下降某些网络层对量化极其敏感异常值影响大如果某个权重特别大会破坏整个量化尺度导致所有参数在压缩后严重失真。有时需要保留原精度层LayerNorm、嵌入层embedding layers或语言模型头LM head可能得保持在 FP16 精度2.2 量化感知训练Quantization-Aware Training, QATQAT 是更成熟、更系统的做法。与其等模型学完后再强迫它适应低精度不如从一开始训练时就让它习惯。我探索 QAT 时是这么做的在训练过程中插入“伪量化层”fake quantization layers模型在学习时就看到低精度的数字使用直通估计器straight-through estimators让梯度正常流动使模型能主动适应到训练结束时权重天然具备对量化噪声的鲁棒性优点是最终准确率更高尤其在极低精度如 INT4 或 3-bit时推理更稳定意外更少可以进行激进量化而不丢失模型的“聪明劲儿”缺点我注意到的耗时哪怕只部分重训 7B–70B 的模型成本也很高工程投入大需要谨慎集成到训练流程中如何选择根据我的实验和阅读PTQ →首选方案。便宜、快速在 INT8 上效果出奇地好配合智能取整策略INT4 也常常有效QAT →仅当你需要最后那 1–2% 的准确率或要做极低精度如 4-bit 以下量化时才用混合方案 →先做 PTQ同时将某些关键层回退到 FP16再对核心层做轻量微调近似 mini-QAT为什么选择在哪个阶段进行量化如此重要我意识到量化不只是一个数学技巧 —— 它会彻底改变整个部署流程对纯推理任务PTQ 往往胜出显存占用更少吞吐量更高对需要训练部署的完整工作流程QAT 可能更划算最终模型更小长上下文处理能力也更强选择在哪个阶段进行量化的问题归根结底是你是想要快速、便宜、基本够用还是谨慎、稍慢、接近完美03 量化技术背后的运作机制在我搞清楚“何时”量化之后就不得不弄明白“量化究竟是怎么实现的”。老实说这个过程出人意料地优雅。量化的核心思想很简单把连续且无限精确的数字映射到一组有限的离散值上并尽可能保留模型的“智能”。3.1 理解缩放因子Scale与零点Zero-Point想象模型中的这样一个权重0.8921374650012345我们真的需要这么多小数位吗不需要。量化技术是这样做的选择一个缩放因子s→ 决定每个“区间”有多宽选择一个零点z→ 将我们的整数对齐到实际数据的范围公式看起来挺花哨但概念上其实很简单quantized_value round(original_value / scale) zero_point当你想还原回 FP32 时dequantized_value (quantized_value - zero_point) * scale3.2 对称量化 vs 非对称量化我发现并不是所有量化都一样对称量化Symmetric quantization → 零点为 0区间以 0 为中心对称优点更简单效率极高常用于权重非对称量化Asymmetric quantization → 零点可调正负范围不一定相等优点能更好地捕捉偏态分布常用于激活值activations因为它们通常不是以 0 为中心的3.3 按张量量化 vs 按通道量化粒度很重要起初我尝试了按张量量化per-tensor quantization整个权重矩阵使用一套缩放因子和零点。很简单但有时会出现灾难性失效。为什么呢因为 Transformer 很挑剔 —— 权重矩阵中有些行的数值很大有些则很小。若整行共用一套缩放因子结果会是小数值被挤进同一个区间导致精度损失或大数值被截断产生巨大误差解决方案按通道per-channel即按行量化。每一行都有自己独立的缩放因子和可能的零点保留了数值的相对差异与带来的收益相比其额外的内存开销微乎其微3.4 取整与截断微小误差重大影响量化并非魔法。它会引入两类误差取整误差Rounding error → 实际值与其最接近的量化区间值之间的差异截断误差Clipping error → 当数值超出可表示范围时被强行裁剪像 GPTQ 或 SmoothQuant 这样的现代 LLM 量化方案核心就是通过巧妙的取整方法或层间重平衡rebalancing来最小化这些误差后面会细说。3.5 如何选择量化精度这是我每天都要面对的问题FP32 → INT8 → INT4 → … 我最多能压缩到多少位我的经验是通常先从 INT8 开始 —— 安全又经济只有在采用高级取整技术时才尝试 INT4。低于 4 比特的量化尚处于实验阶段除非你准备好对模型进行微调否则风险很高。3.6 一个直观的比喻这是我的思维模型每个权重一件衣服每个量化区间行李箱里的一个隔层缩放因子你的隔层有多大零点第一个隔层从哪儿开始04 量化为何有时会带来副作用量化并非魔法 —— 如果我们不够谨慎它可能会微妙地破坏模型性能。这些误差主要来源于以下几个方面1取整误差将 FP32 精度的数值映射到 INT8/INT4 会引入微小的精度损失。单次误差很小但在 Transformer 中微小的取整误差会跨层累积。结果导致注意力分布或词元概率发生细微变化有时甚至会引发模型幻觉。2截断误差异常值会迫使量化因子变大。这使得大多数权重被压缩到少数几个区间内 → 有效精度大幅下降。实例LayerNorm 层中一个罕见的大激活值若被截断就可能导致模型不稳定。快速应对采用百分位数法确定缩放因子代替极值法或对敏感层特殊处理。3网络层敏感度差异并非所有网络层对量化的反应都相同注意力投影层Attention projections 语言模型头LM head → 高度敏感LayerNorm 层 → 极度敏感通常需保持 FP16 精度MLP 层 → 中等敏感可耐受 INT8/INT4嵌入层Embeddings → 中高度敏感需要小心处理05 高级量化技术在经历了取整、截断和敏感网络层带来的种种挑战后研究人员和工程师们开发出一些巧妙的方法使得 LLM 即使在 4 位精度下也能表现出色。以下是我了解到的一些核心技术。5.1 GPTQ基于 Hessian 矩阵的智能取整核心思想并非所有取整误差都同等重要。某些权重对模型输出的影响更大。GPTQ 通过分析模型的二阶敏感度Hessian 矩阵来识别哪些权重可以安全地进行取整处理。效果即使在大模型中INT4 权重量化也能几乎保持原始精度。5.2 AWQ激活感知量化激活值与权重相互作用如果在对权重进行取整时不考虑激活值的分布范围可能会损害模型性能。AWQ 根据激活值的统计特征来调整权重量化策略从而降低推理过程中的误差风险。5.3 SmoothQuant层间平衡技术痛点某些网络层的激活值范围过大导致均匀量化效率低下。SmoothQuant 会在不同层之间对权重和激活值进行重新缩放但保证它们相乘后的结果即模型的输出保持不变。优势实现更平滑的量化大幅减小精度损失。5.4 HQQ 与混合方法该方法将 Hessian 信息与混合精度或分组量化技术相结合。思路对层中“安全”的部分使用低比特精度而对敏感部分保留更高精度。该技术在对生产级模型进行 INT4 或更低比特量化时尤为实用。5.5 混合精度回退机制有些网络层天生抗拒被量化。常见策略将 LayerNorm、LM Head语言模型输出头以及部分嵌入层维持在 FP16 精度其余部分则量化为 INT4/INT8。权衡虽略微增加内存占用却能换来模型质量的大幅提升。06 KV 缓存量化如果你曾尝试用大语言模型处理长上下文任务一定对此深有体会KV 缓存会疯狂占用内存。每个生成的词元都要为每一层保存键Key矩阵和值Value矩阵而模型动辄拥有数十亿参数内存很快就会被吃光。量化技术此时便派上用场。6.1 为什么 KV 缓存很重要在解码过程中Transformer 会为每个历史词元存储键K和值V。这样就能在计算注意力时访问所有先前词元无需重复计算。问题在于对于长提示词如 8K 词元和超大模型70B 参数缓存可能占用大部分 GPU 内存。6.2 INT8/INT4 KV 缓存将键和值以更低精度如 INT8 或 INT4存储可大幅减少内存占用。精度损失极小因为注意力机制对 K/V 矩阵中的微小取整噪声具有较强的容忍度。用一种更为直观的方式理解注意力机制包容性强就像听 128kbps 的歌曲 —— 细节虽有损失但整体旋律依旧清晰。6.3 反量化 or 直接在整数域中进行计算两种实现方式1动态反量化Dequant on-the-fly在计算注意力时将 INT8/INT4 临时转回 FP16有轻微计算开销但内存效率高2在整数域中直接计算Compute directly in integer domain充分利用支持低精度运算的硬件如支持 INT8 的 GPU速度更快、内存数据移动量更少但工程实现稍复杂6.4 实用建议将 KV 缓存量化与分层混合精度结合使用效果最佳。INT8 KV 缓存通常很安全若使用 INT4建议配合高级取整策略如 GPTQ 或 AWQ。务必在长序列上进行测试 —— 短上下文的基准测试无法暴露潜在的模型幻觉或词元错位问题。07 量化技术实战工作流在深入研究了量化的原理、误差来源和高级技巧后我意识到真正的挑战不在于理解量化而在于如何安全地实施它而不破坏模型。以下是我的实践方法。7.1 准备校准数据集在调整任何权重之前首先准备一个体量小但具有代表性的数据集包含 100-500 条覆盖模型典型任务的输入序列目的记录每一层激活值的数值范围和分布形态从而为后续的量化过程提供准确的统计依据。原因如果推理时的激活值分布与校准数据偏差过大INT4 量化可能会失败7.2 逐层确定精度并非所有网络层都能同等程度地适应 INT4 精度MLP 层和大多数注意力权重 → 采用 INT4嵌入层 → 若存在风险则采用 INT8LayerNorm、LM Head 及有时首个投影层 → 回退至 FP16 精度7.3 执行量化操作首先进行训练后量化PTQ通常将所有权重转为 INT8检查模型输出然后使用 GPTQ 或 AWQ 逐步将 MLP /注意力层降至 INT4始终将敏感网络层保持在 FP16 精度此阶段是迭代过程应用量化 → 测试 → 调整网络层精度7.4 评估与调试这是理论照进现实的环节使用真实场景的提示词进行测试而非仅依赖基准数据集检查是否出现幻觉、词元错位或推理能力下降若某网络层表现异常可选择性地恢复其精度或尝试按通道缩放7.5 微调可选步骤对于激进的低比特量化如 INT4、混合 3-4 位量化有时需要进行轻量级的量化感知微调在校准数据上训练几个 epoch让模型适应量化引入的噪声通常能将 INT4 的性能表现提升至接近 FP16 水平7.6 部署就绪当量化稳定后KV 缓存也进行量化INT8/INT4提升内存效率对那些被特意保留为较高精度的层已采取保护措施模型已通过长上下文任务测试最终成果内存占用更小推理速度更快精度损失微乎其微。当第一次看到 70B 参数的模型在单张 GPU 上流畅运行时那种感觉堪称神奇。08 应用场景端侧 AIOn-Device AI量化让我能直接在笔记本、边缘设备甚至手机上运行大语言模型。过去需要多卡 GPU 服务器的模型如今单张 GPU 就能装下让 AI 能够进行实时交互摆脱云端延迟。我用它来做笔记、进行代码补全、当离线聊天助手 —— 就像把一台超级计算机装进了背包里。高性价比的云端部署Cost-Efficient Cloud Deployment即使在云端量化也能大幅降低 GPU 内存占用使单个节点能够服务更多用户大幅节省运维成本。例如如果一个 13B 模型在 INT4 精度下的表现几乎与 FP16 相当但 GPU 内存占用减少了一半这样使得预算有限的团队也可以部署高性能的 LLM。长上下文应用Long-Context Applications通过降低 KV 缓存的内存占用使得处理长文档成为可能。借助 INT8 或 INT4 的 KV 缓存我成功实现了整本书籍的摘要生成、分析法律合同甚至维持数小时的连续对话而不会爆内存。这让虚拟助手、教学系统和摘要工具能无缝处理超长上下文。多模型协作流水线Multi-Model Pipelines量化模型在混合流水线中表现尤为出色。我经常用小型 INT4 模型做初步筛选或生成初始建议再将结果交给更大的模型进行最终推理。若无量化技术并行调度多个模型会很容易超出内存限制。而现在就像在一台机器上部署了一整个 AI 专家团队。研究与实验Research and Experimentation最后量化技术让实验变得更快速、更便宜。我可以在消费级 GPU 上迭代新架构、测试模型消融实验或微调模型无需等待昂贵的专用硬件。这极大加速了我们的学习与实验进程让大模型研究变得更加触手可及。END本期互动内容 ❓你觉得未来大模型会默认以量化形式发布还是保留“原始精度按需量化”的模式本文经原作者授权由 Baihai IDP 编译。如需转载译文请联系获取授权。原文链接https://bhavishyapandit9.substack.com/p/deep-dive-into-quantization-of-llms

wordpress付费站内搜索莱芜金点子招聘网最新招聘

网站黑白代码稻香村网站建设

建设一个网站的硬件要求吗在浏览器播放视频

金融公司网站免费模板如何看网站是谁做的

给缅甸公司网站做维护工作时间段庄河城乡建设管理局网站

做网站公司三年财务预算表南京网站如何制作

网站项目怎么做自己创建网页