网站建设的生存期模型做网站有意思吗-河源市网站建设公司-Seo优化

网站建设的生存期模型,做网站有意思吗,南阳美容网站建设,精品建站文章目录基于 Transformer 工作机理注意力层架构和检查点模型编码器模型解码器模型编码器-解码器模型使用 LLMs 实现文本生成注意力机制充当的角色上下文长度和注意力广度提示的艺术推理过程预填充阶段解码阶段取样策略根据概率选择 Token减少重复性控制生成长度保证更好的相干…文章目录基于 Transformer 工作机理注意力层架构和检查点模型编码器模型解码器模型编码器-解码器模型使用 LLMs 实现文本生成注意力机制充当的角色上下文长度和注意力广度提示的艺术推理过程预填充阶段解码阶段取样策略根据概率选择 Token减少重复性控制生成长度保证更好的相干性度量和优化性能指标上下文长度KV 缓存优化偏好与限制在讲述Transformers之前我们先了解自然语言处理Natural Language ProcessingNLP和大语言模型Large Language ModelsLLMs。NLP是一个更广泛的领域专注于使计算机能够理解、解释和生成人类语言。NLP包含许多技术和任务如情感分析、命名实体识别和机器翻译。NLP是语言学和机器学习的一个领域专注于理解与人类语言有关的一切。NLP任务的目的不仅仅是理解单个单词而是能够理解这些单词的上下文。下面列出的是NLP解决的一些通用任务对提供的句子文本做分类根据输入文本判断文本表达的情感检测电子邮件是否是垃圾邮件确定一个句子是否语法正确或者两个句子是否在逻辑上相关等。对句子中的每个词汇做分类识别句子的语法成分名词、动词、形容词或命名实体人、地点、组织。生成文本用自动生成的文本完成提示使用遮罩词填充文本中的空白。从文本中提取答案给定一个问题和上下文根据上下文提供的信息提取问题的答案。根据输入文本生成新句把一篇文章翻译成另一种语言为文章提取摘要。LLMs是NLP模型的一个强大子集其特点是它们具有庞大的规模广泛的训练数据并且能够以最少的任务特定训练执行广泛的语言任务。Llama、GPT或Claude系列等模型都是LLMs的例子它们彻底改变了NLP的可能性。LLMs具有如下特点规模它们包含数百万、数十亿甚至数千亿个参数一般能力他们可以在没有特定任务训练的情况下执行多个任务情境学习他们可以从提示中提供的例子中学习突发能力随着这些模型规模的增长它们展示了无须程式化或预期的能力LLMs的出现将范式从为特定的NLP任务构建专门的模型转变为使用单个的大型模型该模型可以通过提示或微调以解决广泛的语言任务。这使得复杂的语言处理变得更加容易同时也在效率、行为准则和部署等领域引入了新的挑战。但是LLMs也有重要的局限性幻觉他们可以自信地产生错误的信息缺乏真正的理解他们缺乏对世界的真正理解并且纯粹根据统计模式进行操作偏差它们可能会重现训练数据或输入中存在的偏差。上下文窗口它们具有有限的上下文窗口尽管这正在改进。计算资源它们需要大量的计算资源计算机处理信息的方式与人类不同。例如当我们读到“我饿了”这个句子时我们很容易理解它的意思。同样地给出两个句子如“我饿了”和“我难过”我们可以很容易地确定它们的相似度。对于机器学习ML模型来说这样的识别会很困难。即使LLMs取得了进步许多根本性的问题仍然存在。这些包括理解歧义、文化背景、讽刺语和幽默话题等等。LLMs通过在不同的数据集上进行大规模训练来解决这些问题但在许多复杂的场景中LLMs仍然经常缺乏人类水平的理解。基于Transformer工作机理上面说过Transformers是Transformer在 Python 上的实现在这里我们回顾一下Transformer的架构图它本身是由编码器和解码器两部分组成因此我们可以简化如下图该模型主要由两部分组成编码器左编码器接收输入并构建其表示特征。这意味着模型通过从输入中获取理解而得到优化。解码器右解码器使用编码器生成表示或叫特征和其他输入来生成目标序列。这意味着该模型针对输出的生成得到了优化。编码器和解码器都可以独立的使用如果提供的模型仅能编码那编码器就可以工作提供的模型如果只能解码则只能解码器工作如果两者都提供则编码器和解码器都可以工作。注意力层Transformer模型的一个关键特性是用称为注意力层的特殊层构建的。在处理每个单词的表示时该层将告诉模型特别注意传入的句子中的某些单词或多或少地忽略其他单词。为了把它放到上下文中考虑一下将文本从英语翻译成法语的任务。给定输入You like this course翻译模型需要特别注意相邻的单词You以获得单词like的正确翻译因为在法语中动词like根据主语的不同而有不同的变化而句子的其余部分对这个词的翻译没有用处。同样在翻译this时模型还需要注意单词course因为this的翻译根据关联的名词是男性还是女性而有所不同。同样句子中的其他单词对于course的翻译并不重要。对于更复杂的句子及更复杂的语法规则模型需要特别注意可能出现在句子中较远的单词以便正确翻译每个单词。同样的概念也适用于任何与自然语言相关的任务一个单词本身有一个含义但这个含义受到上下文的深刻影响上下文可以是该单词之前或之后的任何其他单词。架构和检查点在深入研究Transformer模型时将会提到架构、检查点以及模型等术语它们的含义都略有不同架构Architecture这是模型的骨架每一层的定义以及模型中发生的每一个操作。检查点Checkpoints这些是将在给定架构中加载的权重。模型Model这是一个概括性术语不像“架构”或“检查点”那样精确它可以同时表示两者。举个例子BERT是一个体系结构而BERT -base-case谷歌团队为BERT的第一个发行版训练的一组权重是一个检查点。人们通常可以说BERT模型或BERT -base-case模型但是他们是有区分的。模型Transformers的工作能力基于提供的模型。一些模型可能只实现某些技术甚至从新的角度处理任务但对于Transformer模型一般的思想是相同的。由于其灵活的架构大多数模型都是编码器、解码器或编码器-解码器结构的变体。在Transformers库中语言模型通常分为三种架构类型仅编码模型适用于需要理解输入的任务例如句子分类和命名实体识别。仅解码器模型适用于生成任务如文本生成。编解码模型对于需要输入的生成任务来说很好编码器模型编码器模型只使用Transformer模型的编码器。在每个阶段注意层都能接触到最初句子中的所有单词。这些模型通常被描述为具有“双向”关注并且通常被称为自动编码模型。这些模型的预训练通常围绕着以某种方式破坏给定的句子例如通过屏蔽其中的随机单词并将寻找或重建初始句子的任务交给模型。编码器模型最适合需要理解完整句子的任务例如文本分类、命名实体识别以及更普遍的词分类和抽取式问答。该系列的模型代表包括BERT、DistilBERT、ModernBERT。解码器模型解码器模型只使用Transformer模型的解码器。在每个阶段对于给定的词注意层只能访问句子中位于它前面的词。这些模型通常被称为自回归模型。解码器模型的预训练通常围绕着预测句子中的下一个单词。这些模型最适合于涉及文本生成的任务。该系列的模型代表包括Hugging Face SmolLM Series、Meta’s Llama Series、Google’s Gemma Series、DeepSeek’s V3。现在大多数现代大型语言模型LLMs都采用仅解码器模型架构。在过去的几年中这些模型在规模和功能上都有了显著的增长其中一些最大的模型包含了数千亿个参数。LLMs的训练通常分为两个阶段预训练模型通过大量文本数据的学习预测下一个token。指令调优对模型进行微调以遵循指令并生成有用的响应。这种方法已经产生了能够理解和生成自然语言的文本的模型这些文本跨越了广泛的主题和任务。编码器-解码器模型编码器-解码器模型也称为序列到序列模型使用Transformer架构的两个部分。在每个阶段编码器的注意力层可以访问初始句子中的所有词而解码器的注意层只能访问输入中位于给定词之前的词。这些模型的预训练可以采取不同的形式但它通常涉及重建输入已被某种程度上损坏的句子如被屏蔽的词。T5模型的预训练包括用单个特殊标记掩码替换文本的随机范围可以包含几个单词然后预测该掩码标记所替换的文本。序列到序列模型最适合于根据给定输入生成新句子的任务例如摘要、翻译或生成式问答。序列到序列模型在需要将一种形式的文本转换为另一种形式同时保留含义的任务中表现出色。一些实际应用包括应用说明模型案例机器翻译将一种类型语言的文本翻译成另外一种语言的文本Marian,T5文本摘要为文章提取文章摘要BART,T5数据到文本生成将结构化的数据转化成自然语言表示T5语法检查修正文本中的语法T5问答基于上下文生成答案BART,T5该系列的模型代表包括BART、mBART、Marian、T5。使用LLMs实现文本生成到目前为止我们已经分析了Transformer架构在一系列离散任务如文本分类或摘要的应用。然而大型语言模型主要用于文本生成我们将探索LLM推理背后的核心概念全面了解这些模型如何生成文本以及推理过程中涉及的关键组件。首先从基本原理开始。推理是使用训练有素的LLMs从给定的输入提示生成自然语言表达的过程。语言模型利用他们从训练中获得的知识一次一个词地构思响应。这些模型利用从数十亿个参数中学习到的概率来预测和生成序列中的下一个token。这种顺序生成允许LLMs生成连贯的和上下文相关的文本。注意力机制充当的角色注意力机制赋予LLMs理解语境和生成连贯的、和上下文相关的文本的能力。在预测下一个单词时并不是句子中的每个单词都具有相同的权重例如在句子the capital of France is…中单词France和capital对于确定下一个单词应该是Paris至关重要。这种专注于相关信息的能力就是我们所说的注意力。通过识别最相关的单词来预测下一个token的过程已经被证明是非常有效的。尽管训练LLMs的基本原则是预测下一个token自BERT和GPT-2以来一直保持但在神经网络的扩展性上通过注意力机制以越来越低的成本工作于越来越长的序列方面已经取得了重大进展。上下文长度和注意力广度如果我们关心LLMs实际上可以处理多少上下文这就引出了上下文长度或者模型的“注意力持续时间”。上下文长度指的是LLMs一次可以处理的token单词或单词部分的最大数量。可以把它想象成模型工作内存的大小这些能力受到几个实际因素的限制模型的架构和大小可用的计算资源输入和期望输出的复杂性在理想情况下我们可以为模型提供无限的上下文但硬件限制和计算成本使这变得不切实际。这就是为什么不同的模型设计了不同的上下文长度以平衡能力和效率。提示的艺术当我们将信息传递给LLMs时我们以一种引导LLMs生成所需输出的方式来构建的输入。这叫做”提示“。了解LLMs如何处理信息有助于我们制作更好的提示。由于模型的主要任务是通过分析每个输入标记的重要性来预测下一个token因此输入序列的措辞变得至关重要。推理过程现在我们了解了基本组件让我们深入了解LLMs如何实际生成文本。这个过程可以分为两个主要阶段预填充阶段和解码阶段。这些阶段像一条装配线一样一起工作每一个阶段都在生成连贯的文本中起着至关重要的作用。预填充阶段预填充阶段就像烹饪的准备阶段。在这个阶段所有的原料都被加工好并准备好。这个阶段包括三个关键步骤标记化将输入文本转换为token将其视为模型理解的基本构建块。嵌入转换将token转换为数字表示形式以便捕获其含义。初始处理通过模型的神经网络运行这些嵌入以创建对上下文的丰富理解这个阶段是计算密集型的因为它需要一次处理所有输入token。把它想象成在开始构建响应之前阅读和理解整个段落。解码阶段在预填充阶段处理完输入之后就进入实际生成文本的解码阶段。该模型每次生成一个token称之为自回归过程其中每个新token依赖于所有先前的token。解码阶段每个新token的生成涉及以下几个关键步骤注意计算回顾所有之前的token以理解上下文概率计算确定每个可能的下一个token的可能性token选择根据这些概率选择下一个token继续检查决定是继续生成还是停止生成这个阶段是内存密集型的因为模型需要跟踪以前生成的所有令牌及其关系。取样策略既然我们已经理解了模型是如何生成文本的那么让我们来探索控制这个生成过程的各种方法。就像作家可以在更有创意或更精确之间做出选择一样我们可以调整模型如何进行标记选择。根据概率选择Token当模型需要选择下一个token时它从词汇表中每个单词的原始概率称为logits开始。但我们如何将这些概率转化为实际的选择呢让我们来分析一下这个过程原始逻辑可以将其视为模型对下一个可能单词的最初直觉温度控制就像一个创造力表盘——较高的设置 1.0 1.01.0让选择更随机和更有创造性较低的设置 1.0 1.01.0让选择更集中和确定top-p抽样不考虑所有可能的单词而是只考虑最可能达到我们选择的概率阈值的单词例如前90 % 90\text{\%}90%。top-k过滤一种替代方法只考虑k kk个最可能的下一个单词减少重复性LLMs面临的一个共同问题是都倾向于重复自己的观点——就像一个演讲者总是回到同样的观点上。为了解决这个问题我们使用两种类型的惩罚存在惩罚无论重复频率如何给定一个固定的惩罚。适用于任何以前出现过的token。这有助于防止模型重用相同的单词。频率惩罚根据token被选中的频率来增加惩罚比例。一个单词出现的次数越多再次被选中的可能性就越小。这些惩罚在token选择过程的早期应用在应用其他采样策略之前调整原始概率。可以把它们看作是鼓励模特探索新词汇的温和推动。控制生成长度就像一个好故事需要适当的节奏和长度一样我们也需要控制LLMs生成的文本长度。这对于实际应用来说是至关重要的无论我们是生成一条短文还是一篇完整的博客文章。可以通过几种方式控制生成长度token限制设置最小和最大token数量停止序列定义特定模式来指示生成如何结束序列结束检测让模型自然地结束其生成例如如果我们想生成一个段落我们可以设置最多100个token并使用“\n\n”作为停止序列。这确保了我们的输出保持重点和适当的大小。保证更好的相干性到目前为止我们讨论的策略每次只决定一个token而波束搜索Beam Search则采用更全面的方法它不是在每一步都只做一个选择而是同时探索多种可能的路径——就像棋手提前思考几步棋一样。工作步骤在每一步中维持多个候选序列通常是5 55-10 1010个对于每个候选序列计算下一个token的概率只保留最有希望的序列和下一个token的组合继续这个过程直到达到所需的长度或达到停止条件选择总概率最高的序列。度量和优化性能指标当使用LLMs时四个关键指标将影响您的实施决策第一个token的时间TTFT你能多快得到第一个响应这对用户体验至关重要主要受预填充阶段的影响。每个输出token的时间TPOT生成后续token的速度有多快这决定了总体的生成速度。吞吐量您可以同时处理多少个请求这会影响规模和成本效率。虚拟内存使用情况你需要多少GPU内存这通常成为实际应用程序中的主要约束。上下文长度LLMs推理中最重要的挑战之一是有效地管理上下文长度。较长的上下文提供了更多的信息但成本很高内存使用随上下文长度呈二次增长处理速度随上下文变长而线性下降资源分配需要仔细平衡虚拟内存的使用最近的模型如Qwen2.5-1M提供了令人印象深刻的1Mtoken上下文窗口但这是以显著降低推理时间为代价的。关键是为您的特定用例找到适当的平衡。KV缓存优化为了应对这些挑战最强大的优化之一是键值KV缓存。该技术通过存储和重用中间计算显著提高了推理速度。这种优化:减少重复计算提高生成速度使长上下文生成变得实用这样做的代价是额外的内存使用但性能方面的好处通常远远超过这种成本。偏好与限制如果您打算在生产中使用预训练模型或微调版本请注意虽然这些模型是强大的工具但它们也有局限性。其中最大的问题是为了能够对大量数据进行预训练研究人员经常过滤他们能找到的所有内容将互联网上可用的内容中最好的和最差的都过滤掉。为了给出一个快速的说明让我们回到一个带有BERT模型的填充蒙版管道的例子from transformers import pipeline unmasker pipeline(fill-mask, modelbert-base-uncased) result unmasker(This man works as a [MASK].) print([r[token_str] for r in result]) result unmasker(This woman works as a [MASK].) print([r[token_str] for r in result])结果[lawyer, carpenter, doctor, waiter, mechanic] [nurse, waitress, teacher, maid, prostitute]当被要求填写这两个句子中缺少的单词时模型只给出了一个不分性别的答案waiter/waitress。尽管BERT是为数不多的Transformer模型之一它不是通过从互联网上收集数据而建立的而是使用明显中立的数据。因此当您使用这些工具时您需要记住您使用的原始模型很容易产生可能的歧义内容。根据数据对模型进行微调不会使这种内在偏差消失。

网站建设的生存期模型做网站有意思吗

深圳网络公司网站深圳返利网站开发

旅行社网站方案做企业网站服务

网站上的图片做多大重庆沙坪坝火车站

成都微信网站建设推宁波seo快速优化课程

兰州网站的建设生产许可证查询官网

公司网站备案上海网站工作室

网站建设的生存期模型做网站有意思吗

深圳网络公司网站深圳返利网站开发

旅行社网站方案做企业网站服务

网站上的图片做多大重庆沙坪坝火车站

成都微信网站建设推宁波seo快速优化课程

兰州网站的建设生产许可证查询官网

公司网站备案上海 网站工作室

公司网站备案上海网站工作室