遵义网站建设优化公司,苏州seo专家教优化网站结构,php 企业网站 后台图片上传,上海高端网站公司哪家好目录 10.3.1 最大熵与指数族分布
1. 最大熵原理#xff1a;最谨慎的推理原则
2. 指数族分布#xff1a;最大熵原理的数学解
3. 指数族分布的优美性质
4. 在计算广告中的核心应用
5. 总结#xff1a;从原则到实践的桥梁
10.3.2 混合模型和EM算法
1. 混合模型#xff…目录10.3.1 最大熵与指数族分布1. 最大熵原理最谨慎的推理原则2. 指数族分布最大熵原理的数学解3. 指数族分布的优美性质4. 在计算广告中的核心应用5. 总结从原则到实践的桥梁10.3.2 混合模型和EM算法1. 混合模型用简单组件构建复杂现实2. 参数估计的困境与隐变量的引入3. EM算法在“已知”与“未知”间优雅迭代4. 在计算广告中的核心应用5. 总结从模糊到清晰的学习范式10.3.3 贝叶斯学习1. 核心思想从先验信念到后验知识2. 共轭先验数学上的优雅便利3. 贝叶斯学习的三大优势4. 近似推断应对现实世界的复杂性5. 在计算广告中的具体应用6. 总结一种更完备的建模世界观10.3.1 最大熵与指数族分布在构建概率模型来描述广告系统中的不确定性如用户点击、转化的概率时我们面临一个根本问题在已知部分信息约束的情况下应该如何选择最“合理”的概率分布最大熵原理给出了一个优雅而深刻的答案选择那个在满足所有已知约束的条件下不确定性最大即熵最大的分布。而这样得到的分布恰好具有一个统一的数学形式——指数族分布。1. 最大熵原理最谨慎的推理原则熵 H(p)−∑xp(x)logp(x)H(p)−∑xp(x)logp(x) 是信息论中度量随机变量不确定性的指标。熵越大不确定性越高。最大熵原理认为当我们试图对一个随机过程进行建模时在所有与已有知识即约束条件一致的模型中应该选择熵最大的那个。这是因为任何其他选择都意味着我们在模型中加入了额外的、没有根据的假设。最大熵模型是最保守、最客观的模型它只反映我们已知的信息而对未知部分保持最大的中立性。一个简单例子假设一个掷骰子的随机变量有6个面。如果我们一无所知那么最大熵分布就是均匀分布 p(xi)1/6p(xi)1/6。如果我们知道“点数的期望值是3.5”那么最大熵原理会在满足 ∑i⋅p(i)3.5∑i⋅p(i)3.5 的条件下最大化熵。求解使用拉格朗日乘子法得到的分布会是指数形式其中某些点数如3和4的概率会比均匀分布稍高而1和6的概率稍低但整体仍然是“最均匀”的满足该约束的分布。2. 指数族分布最大熵原理的数学解形式上假设我们有关于随机变量 xx 的 KK 个约束表示为特征函数 fk(x)fk(x) 的期望值等于观测到的经验期望 E~[fk]E~[fk]那么满足这些约束的最大熵分布 p(x)p(x) 具有如下形式其中 λ(λ1,…,λK)λ(λ1,…,λK) 是拉格朗日乘子对应每个约束的“强度”是归一化常数配分函数。这个形式就是指数族分布的标准形式。将其一般化指数族分布的概率密度/质量函数可写为其中ηη 是自然参数对应上面的 λλ。T(x)T(x) 是充分统计量对应上面的特征函数向量 f(x)f(x)。它包含了关于参数 ηη 的全部信息。A(η)logZ(η)A(η)logZ(η) 是对数配分函数保证分布归一化。h(x)h(x) 是基度量通常为1。3. 指数族分布的优美性质指数族分布之所以成为统计建模的基石源于其一系列完美的数学性质充分统计量T(x)T(x) 包含了数据 xx 中关于参数 ηη 的全部信息。在估计参数时我们只需要存储这些统计量的值如求和而无需存储整个原始数据集这对于大数据处理极为有利。共轭先验在贝叶斯推断中如果先验分布与似然函数共轭则后验分布与先验属于同一分布族计算极为简便。指数族分布存在共轭先验这为贝叶斯学习提供了极大的便利例如伯努利分布的共轭先验是Beta分布高斯分布的共轭先验是高斯-伽马分布。最大似然估计的易处理性对于指数族参数的最大似然估计MLE可以通过求解矩方程得到E[T(x)]1N∑i1NT(xi)E[T(x)]N1∑i1NT(xi)。即模型期望的充分统计量等于观测数据的经验平均值。这通常导致一个凸优化问题可以通过梯度下降等算法有效求解。广义线性模型GLM的基础GLM将线性预测器 ηwTxηwTx 通过一个链接函数 g(⋅)g(⋅) 与响应变量的均值 μμ 连接起来并假设响应变量服从指数族分布。逻辑回归伯努利分布logit链接、泊松回归泊松分布log链接都是GLM的特例。4. 在计算广告中的核心应用逻辑回归与点击率预估这是最大熵模型在广告中最直接的应用。我们将一次广告展示的特征 xx用户、广告、上下文作为输入预测点击事件 y∈{0,1}y∈{0,1}。逻辑回归模型这正是伯努利分布指数族的形式其自然参数 ηwTxηwTx。从最大熵角度看我们约束模型学到的特征 xx 的期望即 xx 的加权平均等于训练数据中点击样本的特征期望。因此逻辑回归也被称为最大熵分类器。softmax回归与多分类在广告创意分类、用户兴趣标签预测等任务中需要处理多类分类问题。softmax回归是逻辑回归在多分类上的推广其背后的分布是多项分布也属于指数族同样是最大熵原理的体现。主题模型LDA潜在狄利克雷分配LDA是文本主题挖掘的核心模型用于广告的上下文定向。LDA中文档的主题分布和主题的词分布都假设服从狄利克雷分布指数族分布而文档中每个词的生成服从以主题为参数的多项分布。LDA的推断和学习过程深刻依赖于指数族分布和共轭先验的性质。效果归因与生存分析在广告效果归因中我们可能需要建模用户从曝光到点击、再到转化的时间间隔。伽马分布或威布尔分布属于指数族常被用于这种时间-事件数据的建模它们可以自然地通过GLM框架与广告特征相关联。贝叶斯学习中的在线更新由于共轭先验的存在对于服从指数族分布的观测数据如点击行为我们可以使用贝叶斯在线更新来实时调整用户画像或广告质量的置信度。例如将点击率视为一个Beta分布伯努利分布的共轭先验的参数每发生一次曝光和点击我们就用贝叶斯公式更新Beta分布的参数得到一个带置信区间的CTR估计。5. 总结从原则到实践的桥梁最大熵原理为我们的概率建模提供了最高层次的哲学指导尊重已知对未知保持敬畏。指数族分布则是这一指导原则下产生的完美数学实体它将理论的优雅与实践的便利性融为一体。在计算广告这个数据驱动、概率决策无处不在的领域理解最大熵与指数族分布不仅帮助我们理解像逻辑回归这样的经典模型为何有效更为我们设计和理解更复杂的概率图模型、在线学习算法提供了坚实的基础。它是连接统计学习理论与工业界应用的坚实桥梁。10.3.2 混合模型和EM算法现实世界的数据尤其是像用户行为、广告效果这样复杂的数据很少服从一个简单的、单一的概率分布。一个用户在电商网站上的行为可能同时受到“价格敏感型”、“品牌忠诚型”和“潮流追随型”等多种内在动机的驱动。混合模型为我们提供了一种强大的数学框架用多个简单分布的线性组合来描述这种复杂的、异质的数据生成过程。而期望最大化EM算法则是解锁混合模型参数估计这一难题的通用钥匙。1. 混合模型用简单组件构建复杂现实核心思想假设我们观测到的数据 X{x1,x2,...,xN}X{x1,x2,...,xN} 并非来自单一分布而是来自 KK 个不同的子分布或称“成分”、“组件”。每个数据点都由以下两步生成首先根据一个多项分布 Multinomial(π)Multinomial(π) 随机选择一个成分 z∈{1,2,...,K}z∈{1,2,...,K}其中 πkπk 是选择第 kk 个成分的先验概率且 ∑k1Kπk1∑k1Kπk1。然后根据被选中的第 zz 个成分所对应的概率分布 p(x∣θz)p(x∣θz) 生成观测数据 xx。因此观测数据 xx 的边缘分布我们实际看到的分布是所有成分分布的加权和其中Θ{π,θ1,...,θK}Θ{π,θ1,...,θK} 是模型的所有参数。此处配图一张二维数据散点图明显呈现三个簇。图上叠加绘制三个高斯分布的等高线以及它们加权混合后形成的复杂概率密度曲面。用箭头和公式图解上述两步生成过程。最经典的例子高斯混合模型当每个成分分布 p(x∣θk)p(x∣θk) 都是高斯分布时就得到了高斯混合模型。它可以逼近任何连续分布是聚类、密度估计的利器。2. 参数估计的困境与隐变量的引入直接对混合模型进行最大似然估计MLE是极其困难的。对数似然函数为问题在于log内部是求和。这导致导数表达式异常复杂通常没有解析解也无法像单一分布那样直接求解。解决这一困境的关键在于引入隐变量Latent Variable。对于每个数据点 xixi我们设想存在一个未观测到的变量 zi∈{1,...,K}zi∈{1,...,K}它指明了 xixi 来自于哪个成分。zizi 就是隐变量。此时完全数据的似然函数包含观测数据和隐变量就变得简单了完全数据的对数似然函数为其中 I(⋅)I(⋅) 是指示函数。这个形式是“对数和”比之前的“和的对数”友好得多。问题在于我们并不知道隐变量 Z{zi}Z{zi} 的值。3. EM算法在“已知”与“未知”间优雅迭代EM算法提供了一种在存在隐变量的模型中进行最大似然估计的迭代框架。它包含两个交替进行的步骤E步期望步基于当前参数估计 ΘoldΘold 和观测数据 XX计算隐变量 ZZ 的后验概率分布进而计算完全数据对数似然函数关于隐变量的条件期望即Q函数。计算每个数据点 xixi 属于第 kk 个成分的后验概率或称“责任”γikγik构造Q函数直观理解E步用“软分配”概率 γikγik替代了完全数据似然中的“硬分配”指示函数 I(zik)I(zik)完成了从“未知Z”到“已知Z的期望”的转换。M步最大化步最大化上一步得到的Q函数更新参数。对于GMMM步有解析解其中 Nk∑i1NγikNk∑i1Nγik。这些更新公式非常直观每个高斯成分的权重正比于它“负责”的数据点比例均值是其“责任”加权下的数据平均协方差是“责任”加权下的数据散布矩阵。EM算法通过这种“猜测E步-修正M步”的循环保证每次迭代后对数似然函数 logp(X∣Θ)logp(X∣Θ) 都不会下降最终收敛到一个局部最优解。4. 在计算广告中的核心应用1. 用户画像与精细化分群应用单纯的基于规则或单一模型如逻辑回归的用户标签难以捕捉用户的多面性。使用GMM或混合多项分布模型对用户的行为向量如浏览类目、搜索词、点击广告类型进行建模可以自动发现不同的“用户原型”或“兴趣簇”。例如可能发现“科技极客”、“居家宝妈”、“旅游达人”等隐含簇。每个用户不再属于单一类别而是以概率γikγik属于各个簇。优势这种软分群比硬聚类更细腻能更好地支持“千人千面”的广告定向。一个用户可能70%是“科技极客”30%是“旅游达人”那么推送广告时可以按比例混合这两类广告。2. 文本主题建模与上下文定向核心模型潜在狄利克雷分配LDA是混合模型的杰出代表。在LDA中每篇文档被视为多个主题的混合分布每个主题又是词汇表上多项分布的混合。文档中每个词的生成过程先从文档的主题分布中选择一个主题隐变量再从该主题的词汇分布中选择一个词。EM算法的角色LDA的参数估计通常使用变分EM或吉布斯采样一种蒙特卡洛方法其核心思想与EM算法一脉相承——通过迭代推断隐变量词的主题归属和更新参数主题分布和词分布。广告应用通过LDA分析用户浏览的页面内容或搜索历史可以推断出用户的实时兴趣主题分布。当用户浏览一篇混合了“金融”和“科技”主题的文章时广告系统可以同时召回与这两个主题相关的广告并按主题概率进行加权排序实现精准的上下文定向。3. 点击率模型中的隐因子建模问题早期的点击率模型只考虑用户、广告、上下文的显式特征交叉。但对于“为什么某个用户会点击某个广告”这种深层次的、无法直接观测的因果关系需要引入隐因子。应用可以将用户-广告交互矩阵的分解视为一个混合模型。假设存在 KK 个隐因子如“性价比敏感”、“品牌导向”、“冲动消费”等每个用户对这些因子有一个偏好分布隐变量每个广告也对这些因子有一个具备度分布。点击事件发生的概率由用户偏好分布和广告具备度分布的内积决定。EM算法或其变种如交替最小二乘可用于学习这些隐因子向量。优势这种方法能捕捉超越显式特征的、深层次的协同过滤信号有效解决数据稀疏和冷启动问题。4. 异常检测与反作弊应用广告流量中的异常点击作弊模式与正常点击模式截然不同。可以构建一个混合模型其中一个成分建模正常流量通常是一个高概率、分布集中的成分另一个或多个成分建模异常流量低概率、分布分散。通过EM算法拟合模型后对于新流量计算其属于“异常成分”的后验概率若超过阈值则判定为作弊。优势这是一种无监督或半监督的方法不需要大量标注好的作弊样本能自适应地发现新的、未知的作弊模式。5. 总结从模糊到清晰的学习范式混合模型与EM算法为我们提供了一套处理复杂、隐含结构数据的标准方法论。它承认世界的复杂性数据来自多个源头并通过引入隐变量这一巧妙的数学构造将复杂的估计问题分解为一系列可迭代解决的简单子问题。在计算广告这个数据异构、模式多变的领域从理解用户、解析内容到评估效果、防御攻击混合模型的思维方式无处不在。掌握EM算法不仅是掌握了一个强大的优化工具更是获得了一种从混杂的观测数据中抽丝剥茧、洞察本质的建模哲学。10.3.3 贝叶斯学习频率学派统计着眼于数据本身通过似然函数寻找最可能的参数。而贝叶斯学习则为我们提供了一个更宏大、更自洽的认知框架学习是在不断用新证据数据更新我们关于世界参数的信念概率分布的过程。在计算广告中面对数据稀疏、在线决策和不确定性量化等核心挑战贝叶斯方法展现出其独特的魅力。1. 核心思想从先验信念到后验知识贝叶斯定理是这一框架的基石其中θθ我们感兴趣的模型参数如广告的点击率。DD观测到的数据如该广告的历史曝光和点击记录。p(θ)p(θ)先验分布。在见到任何数据之前我们基于经验、常识或领域知识对参数可能取值的主观信念。p(D∣θ)p(D∣θ)似然函数。在给定参数下观测到当前数据的可能性。p(θ∣D)p(θ∣D)后验分布。在考虑了观测数据之后我们对参数更新的、更准确的信念。p(D)p(D)证据或边际似然是一个归一化常数确保后验分布积分为1。哲学转变参数 θθ 不再是一个固定的未知常数而是一个随机变量我们用概率分布来描述它的不确定性。学习的目的是获得这个分布而非一个点估计。2. 共轭先验数学上的优雅便利在贝叶斯推断中计算后验分布往往涉及复杂的积分。共轭先验的存在是一个福音如果先验分布与似然函数共轭那么后验分布将与先验属于同一分布族只需简单更新分布参数即可。几个在广告中至关重要的共轭对伯努利/二项分布似然 ⇨ Beta先验/后验用于点击率CTR建模。先验Beta(α,β)Beta(α,β)其中 αα 可视为“伪成功次数”ββ 为“伪失败次数”。观测数据ss 次点击成功ff 次未点击失败。后验Beta(αs,βf)Beta(αs,βf)。后验均值 αsαβsfαβsfαs 是CTR的一个平滑估计。多项分布似然 ⇨ 狄利克雷先验/后验用于主题分布、兴趣分布建模。高斯分布似然方差已知⇨ 高斯先验/后验用于连续值建模如转化价值。共轭先验使得在线学习变得极其高效和自然每来一条新数据只需更新后验分布的参数该后验即成为下一条数据的先验。这完美契合了广告流式数据的特性。3. 贝叶斯学习的三大优势1. 天然的正则化与避免过拟合先验分布 p(θ)p(θ) 本身就扮演了正则化的角色。例如在逻辑回归中采用高斯先验均值为0等价于在损失函数中添加了L2正则项。这种“软约束”基于概率的框架自然导出避免了复杂的交叉验证调参。2. 量化不确定性支持探索与利用这是贝叶斯方法在广告中的杀手级应用。频率主义的CTR点估计如 p^s/(sf)p^s/(sf)无法衡量估计的可靠程度。一个曝光2次点击1次p^0.5p^0.5的广告和一个曝光1000次点击500次p^0.5p^0.5的广告点估计相同但后者可信度高得多。贝叶斯后验分布如Beta分布完整地刻画了这种不确定性。我们可以计算后验的均值用于“利用”也可以计算其方差或置信区间用于“探索”。汤普森采样一种优雅的EE策略。要选择展示哪个广告时从每个广告CTR的后验分布Beta分布中随机抽取一个样本值然后选择样本值最大的那个广告。这样估计不确定分布宽的广告有更大的概率被采样到其分布的右侧高值从而被选中实现了对探索的激励。随着数据积累后验分布变窄采样值收敛到均值系统自然过渡到以利用为主。3. 分层建模与信息共享广告数据天然具有层次结构一个广告主下有多个广告计划一个计划下有多个广告创意。一个新上线的创意数据稀少。频率主义方法孤立地估计其CTR会极不稳定。贝叶斯分层模型可以优雅地解决此问题假设同一广告主下的所有创意的CTR都来自一个共同的“广告主级别”的分布超先验。具体创意的后验估计会“收缩”或“借用”同一广告主下其他创意的信息以及全局先验的信息得到更稳健的估计。这尤其有利于冷启动问题。4. 近似推断应对现实世界的复杂性当模型复杂如深度学习、似然非共轭时精确的贝叶斯推断不可行。现代贝叶斯学习依赖于强大的近似推断技术马尔可夫链蒙特卡洛通过构造一条马尔可夫链使其平稳分布就是目标后验分布然后通过采样来近似后验。虽然计算代价高但被视为“黄金标准”。变分推断将复杂的后验分布推断问题转化为一个优化问题寻找一个来自简单分布族如高斯族的近似分布 q(θ)q(θ)使其尽可能接近真实后验 p(θ∣D)p(θ∣D)。其优化目标是最小化两者之间的KL散度。VI通常比MCMC更快适合大规模数据是现代贝叶斯深度学习的主力。蒙特卡洛Dropout一个巧妙而实用的发现在深度神经网络中使用Dropout不仅是一种正则化手段其预测过程对同一输入进行多次前向传播每次随机丢弃不同神经元等价于对模型参数进行了一种近似的贝叶斯推断输出的预测方差可以解释为模型的不确定性。5. 在计算广告中的具体应用1. 动态出价与预算控制需求方平台DSP的实时出价是一个典型的序贯决策问题。贝叶斯方法可以建模点击率、转化率、转化价值的不确定性并将其与剩余预算、竞拍环境等状态结合使用贝叶斯强化学习或贝叶斯优化框架来求解最优出价策略在风险和收益间取得平衡。2. 用户生命周期价值预测预测用户在未来一段时间内带来的总价值LTV充满不确定性。贝叶斯生存分析模型或贝叶斯深度网络可以不仅给出LTV的点预测还给出其概率分布如分位数帮助广告主更科学地进行长期价值出价。3. 创意效果的A/B测试与快速决策传统的频率主义A/B测试需要积累大量样本才能得出结论。贝叶斯A/B测试允许我们在测试过程中持续观察后验分布。例如可以实时计算“创意A的转化率高于创意B”的后验概率。一旦这个概率超过一个预设的决策阈值如95%就可以提前终止测试并做出决策大幅提升优化效率。4. 隐私保护与联邦学习在隐私计算日益重要的今天贝叶斯学习提供了一种自然框架。各方可以在本地基于自己的数据计算充分统计量或后验分布然后在中心服务器上融合这些中间结果而不是原始数据得到全局的贝叶斯后验。这为在保护用户隐私的前提下进行联合建模提供了可能。6. 总结一种更完备的建模世界观贝叶斯学习不仅仅是一套工具它代表了一种更符合人类认知习惯和现实世界特质的建模哲学。它坦然承认我们对世界认知的“不确定性”并将这种不确定性作为模型的核心部分进行量化和管理。在计算广告这个充满随机性、需要实时决策、且决策代价高昂的领域贝叶斯方法为我们提供了从处理冷启动、平衡探索与利用、到量化风险和做出稳健决策的系统性解决方案。它将“学习”从一个寻找单一答案的过程升华为一个不断演进和更新的信念系统。