常用的网站流量统计软件有哪些成都 广告公司网站建设

张小明 2026/1/10 0:28:39
常用的网站流量统计软件有哪些,成都 广告公司网站建设,桂林漓江风景图片,网络工程是冷门专业吗本文旨在浅出深入讲解transformer自注意力机制#xff0c;揭开AI大模型神秘面纱#xff0c;以下全是干货#xff01;transformer来源Transformer 源自 发表于 2017 年 6 月#xff08;arXiv 预印本#xff0c;作者上传时间为 2017-06-12#xff09;#xff0c;谷歌论文《…本文旨在浅出深入讲解transformer自注意力机制揭开AI大模型神秘面纱以下全是干货transformer来源Transformer 源自发表于 2017 年 6 月arXiv 预印本作者上传时间为2017-06-12谷歌论文《Attention Is All You Need》。研究者发现处理语言时不必像人一样逐字“背顺序”而是学会“注意力分配”——一句话里哪些词最重要。Transformer 正是用自注意力机制让模型一次性看懂整句话抓住关键关系从而更快、更准地理解和生成语言。这一结构随后成为几乎所有大模型的基础。浅出观察下图你的注意力在哪。你同时有多少个注意力。经过一秒钟这一秒钟内经过了无数个注意力你的大脑通过你的所有注意力构建出了这是一位魔鬼身材、天使面孔的美女。​ 你的注意力拆解第一个注意力观察到美女胸部特征。第二个注意力观察到美女面部。第三个注意力观察到美女腰部曲线。第四个注意力观察到美女配饰、衣物。第五个注意力观察到背景海边。......每一个注意力之间互相存在关系比如你观察到胸部特征你就想要去观察面部、腰部曲线等从而多角度验证这是一个“生理女性”的美女而非“变形美女”直到你的大脑利用关系构建出一副完整的、可被理解的画面夕阳海边一位魔鬼身材、天使面孔的美女佩戴精致的头冠、耳坠伸展胳膊至脑后表现出自信且慵懒的姿态。这就是你的大脑在这一秒钟之内使用了自注意力机制充分计算从而理解了这张图片的内容。需要强调的是这只是类比。Transformer 的注意力并不是时间序列而是一次性并行完成。深入如果你理解了上一章节“浅出”本章节深入transformer是如何在计算机中模拟上一章节过程。下文采用“我爱你”这句话详解transformer的自注意力机制每个步骤干了什么。自注意力计算公式如下​第一步拆解token生成Q、K、V在计算机首先要拆解为多个token 每个AI大模型拆解一句话产生的token不一样存入计算机内存中方便接下来的计算例如我爱你整个过程类似于你的大脑将上面的美女图片拆解成各个部位胸部部位、腰部部位、面部部位等为了保证每个token的精准度以及接下来的计算每个 token 先被表示为一个 512 维维度越大能够表示token的精准度越高、内容信息越充足计算量越大的向量。为方便下文举例及计算这里用浮点数、4维的向量表示“我爱你”的每个token。假设使用整数进行计算会在softmax函数计算过程中指数过大无法表示所以用浮点数进行计算。第1个token「我」[0.1, -0.2, 0.3, 0.1]第2个token「爱」[-0.1, 0.2, 0.2, -0.3]第3个token「你」[0.2, 0.1, -0.1, 0.2]注意这里每个token的4维向量值是初始化随机生成的因为我们是在模拟第一次训练大模型时候的状态。在完成一次完整的前向传播并计算损失函数后通过反向传播与参数更新这些 4 维向量会被逐步调整。再通过三组线性变换即使用随机生成的Wq、Wk、Wv分别与上面每个token的向量相乘分别得到该 token 的 Q、K、V 向量。随机生成的Wq、Wk、Wv如下所示注意这里Wq、Wk、Wv是初始化随机生成的因为我们是在模拟第一次训练大模型时候的状态。在完成一次完整的前向传播并计算损失函数后通过反向传播与参数更新这些Wq、Wk、Wv会被逐步调整。使用Wq、Wk、Wv分别与每个token的向量进行相乘得到Q、K、V向量。提示矩阵、向量计算规则可自行搜索高中生绝对能看懂这里不再赘述。以 “我” 为例Q 向量与Wq相乘即 [0.1,−0.2,0.3,0.1]×Wq​≈[−0.04,0.09,0.13,−0.03]同理得到以下数据tokenQ向量4维K向量4维V向量4维我[-0.04, 0.09, 0.13, -0.03][0.05, -0.08, 0.12, 0.04][-0.05, 0.08, 0.11, -0.06]爱[-0.11, 0.05, 0.07, -0.09][-0.08, 0.10, 0.05, -0.12][0.07, -0.11, 0.04, 0.08]你[0.06, -0.07, 0.15, 0.02][0.09, -0.05, 0.11, 0.07][0.03, -0.08, 0.12, -0.05]Q Query K Key V Value通俗的讲Q是你在搜索引擎中输入的“字”K是搜索出来的多个结果V是每个结果点进去的内容。如图所示第二步将每个token的向量Q、向量K、向量V分别堆叠成矩阵Q、矩阵K、矩阵V。堆叠成矩阵后进行第三步的时GPU显卡能充分发挥性能优势不堆叠成矩阵也可以直接用向量点积也可以但那是CPU的做法将K矩阵转置即行转列列转行。K矩阵转置后如下所示第三步使用Q矩阵 与矩阵相乘第四步将第三步中的计算结果除以有时第三步的计算结果某两个数差过大0.999和0.0001要整体进行缩放。将相乘结果除以是为了防止向量维度过高导致点积值过大从而使后续的softmax函数计算结果过度饱和注意力权重失去区分能力。​的值是token的维度 除以 头的个数。假设本例中头个数为1则4 2。逐个元素除以计算结果如下​ 提示头指的是从不同的角度进行自注意力机制计算比如物理学家、数学家共同解决天体运行规律物理学家、数学家分别是一个头。第五步使用softmax函数来计算权重softmax函数是用来将上面的计算结果按照行来做权重分配计算的即每一行的数字相加结果等于1。Softmax函数计算逻辑过程如下由于公式表示过于抽象为方便各位读者理解本作者直接手搓一遍计算过程其中e就是高中学的常数e。第六步第五步结果乘以矩阵V进行输出至此单个自注意力机制结束。那么最终计算输出的矩阵代表什么意思这个注意力输出矩阵中每个元素的本质是 “特定 token 在某个隐式语义维度上的特征强度”。由于我们最初赋予每个token的初始向量是随机的所以这个计算结果即矩阵中的元素数值仅是未收敛的中间表示数学上合法、语义上随机、任务上无意义的。在训练过程中模型通过多层自注意力机制与前馈神经网络不断重写表示空间并借助损失函数Loss定义优化目标在反向传播与参数更新的迭代中逐步收敛最终得到在语义上稳定、并与具体任务目标对齐的表示矩阵用于下游预测或生成。整个过程类似于人类大脑在视觉学习中的机制大脑并不是直接“看到”美女图片的语义而是将视觉信号转化为神经活动模式通过大量训练逐步学习不同特征之间的统计关系最终形成对物体的识别能力。这就是为什么小孩子更好奇更喜欢和世间万物互动。Transformer 也是通过将输入转换为高维向量表示并在多层计算中学习这些表示之间的关系来完成理解与生成任务。整个transformer还没结束还有多头、残差、归一化、前馈神经网络、编码、解码、损失函数等内容当所有步骤走完我们的“大脑”才能真正的学会识别这是一张美女图片并且还能依照学会的知识进行推理这就是大语言模型的训练和推理过程。建议各位读者全程手搓一遍计算过程不要怕麻烦直接拿出纸笔进行计算。后续内容敬请关注本作者《高中生都能学明白transformer》系列本作者带您逐步拆解、全面解析大语言模型真正的奥妙。充分理解大语言模型你在使用各大厂商AI大模型过程中一些疑惑便迎刃而解。这便是知其然知其所以然如果您觉得此文对您有帮助请点赞收藏转发以便让更多人看到。此账号持续更新各种comfyui实战工作流欢迎关注
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

广东省建站公司网站swf怎么做

探索生物进化的数字世界:biosim4模拟器深度解析 【免费下载链接】biosim4 Biological evolution simulator 项目地址: https://gitcode.com/gh_mirrors/bi/biosim4 在这个数字化时代,我们有机会通过代码来探索和理解生物进化的奥秘。biosim4是一个…

张小明 2026/1/9 16:04:52 网站建设

西宁网站建设的企业广州找工作哪个网站好

在当下数字化营销范畴内,凭借人工智能技术促使品牌于搜索引擎以及各类AI推荐系统里的可见度得以提升,已然变成企业获取竞争优势的关键要点。这一进程一般被称作AI排名优化,它的核心是运用算法模型,针对品牌相关的线上内容开展系统…

张小明 2026/1/8 6:26:26 网站建设

东莞网站制作网络建设公司做站用什么网站程序

独龙语纹面习俗的数字重生:一位“会说话”的老人如何被AI唤醒 在云南西北部的独龙江峡谷深处,生活着中国人口最少的民族之一——独龙族。过去,女性成年时以靛青刺面,留下纵横交错的蓝黑色纹路,这不仅是美的象征&#x…

张小明 2026/1/7 4:25:51 网站建设

淄博网站制作服务优化wordpress配置邮件

前言 “40岁以上的网安人,只要技术和能力水平不差,还是能够找到一个相对体面的工作的,尤其是搞安全研发或者安全咨询的。” 我是1984年的,今年40岁。老公83年的,明年就迈入42岁的门槛了,生活在广州羊城&a…

张小明 2026/1/8 7:12:41 网站建设

网站建设一般考虑哪些因素做旅游网站的研究意义

Oracle性能监控:全面解析与操作指南 1. Database Control Console配置与管理 Database Control Console通常仅在运行 emca 的节点上运行。使用 emctl start dbconsole 和 emctl stop dbconsole 命令,可分别启动和停止该节点上的管理服务,而在集群的其他节点上,相同…

张小明 2026/1/9 7:42:06 网站建设