成都市自住房建设网站开封网站建设zducm

张小明 2026/1/8 23:24:24
成都市自住房建设网站,开封网站建设zducm,wordpress幻灯片插件 汉化,达州 网站建设【强化学习】第五章#xff1a;蒙特卡洛学习、时序差分学习、TD(λ) 本篇开启无模型(Model-free)强化学习方法#xff1a;蒙特卡洛学习、时序差分学习、TD(λ)。其中#xff0c;TD(λ)方法可以看作是蒙特卡洛方法和时序差分方法的混合。 这三个方法的最终目的都是用来评估…【强化学习】第五章蒙特卡洛学习、时序差分学习、TD(λ)本篇开启无模型(Model-free)强化学习方法蒙特卡洛学习、时序差分学习、TD(λ)。其中TD(λ)方法可以看作是蒙特卡洛方法和时序差分方法的混合。这三个方法的最终目的都是用来评估和优化价值函数的通俗的说就是计算状态价值的。评估价值函数就是计算出那个收敛的Vπ有了Vπ就可以算出Qπ有了Qπ就可以用贪婪的方法去提升策略了如此循环就可以找到最优策略。也就是智能体从小白变成了高手。说明本章理解起来有些抽象要想彻底弄懂第二章的增量式均值计算、指数移动平均第三章的贝尔曼期望方程第四章动态规划中的迭代策略评估这些内容务必要弄明白本章才容易理解。一、蒙特卡洛强化学习(Monte-Carlo Reinforcement Learning)1、蒙特卡洛强化学习是解决什么问题的我们前面第三、四章学的是有模型的强化学习问题就是现实问题可以抽象成一个完备的MDP。完备的MDP就是我们是知道环境中的状态的而且知道状态之间的转移概率并且知道系统的即时奖励。此时我们用贝尔曼期望方程动态规划就可以解决。但是无模型的强化学习问题是一个非完备的MDP我们是不知道系统背后的状态转移矩阵也不知道系统奖励。此时就得用无模型强化学习方法。其中蒙特卡洛强化学习方法(简称MC)就是一个典型的无模型算法。2、MC的基本描述和基本思想1MC方法是需要agent和环境进行交互的交互了就可以获得交互数据然后从交互数据中寻找经验。2MC方法要求agent得从头打到游戏结束。所以MC只能用于有分幕的情况就是要有游戏结束的情况。3通俗理解MC就是用样本均值估计总体均值的方法就是用样本均值逼近总体均值或者说就是用频率逼近概率的逻辑。在完备的MDP中我们是有状态转移矩阵的所以可以用概率算出状态价值但是这里不知道状态是如何转移的所以只能通过实际走出的一条条幕通过这些幕中的状态实际回报的均值来估计状态价值。3、MC具体是如何计算状态价值的1MC是通过两种方法来计算状态价值的first-visit或者every-visit来计算的。2上左图意思就是agent实实在在的打了6轮游戏所以产生了6条分幕。上左图就是利用这6条分幕来计算状态s0的价值值的示例。具体做法是首先在每条分幕中找到状态s0第一次出现的地方。比如分幕1中s0第一出现在a处虽然b处也出现了s0但是不用管b处我们只计算a处s0的价值。那a处s0的价值其后所有状态的系统奖励和。这就算出了第一个s0的价值值。同理观察分幕2中s0出现的位置发现分幕2中压根就没出现状态s0那就弃用这条分幕同理计算分幕3、分幕4、分幕6中的s0价值值。这样就又得到3个s0的价值值。最后求这4个s0价值值的均值就得到状态s0的价值值。如此方法计算其他状态的价值。3上右图方法2示例的也是如何计算状态s0的价值值。但是every-visit采用的是只要幕中出现状态s0就统统计算其价值值然后求平均平均值就是s0的价值值。4我们大多数是用every-visit方式。anyway不管是first-visit还是every-visit很多时候都是可以收敛的所以这两种方法差别不大你随便选一种即可。4、小结至此我们使用蒙特卡洛方法就计算出了状态价值有了状态价值就可以算出动作价值有了动作价值就可以局部贪婪化的选取局部最优动作(也就是进行策略提升了)局部最优动作就是新的策略在新策略下又可以计算新的状态价值-新的动作价值-策略提升-新新策略-新新状态价值-....如此循环当策略收敛后就是我们要寻找的最优策略。这就是蒙特卡洛强化学习的基本内容。现在回看其原理是不是特别特别简单和通俗易懂但是这里要重点说明的是蒙特卡洛方法在工程实现上还有两个技巧对于稳态环境问题工程上一般是用增量来计算价值均值的对于非稳态环境问题一般是用指数移动平均来计算价值均值的。至于什么是稳态、非稳态、什么是增量、什么是指数移动平均等概念请参考我这篇文章https://blog.csdn.net/friday1203/article/details/155787017?spm1001.2014.3001.5501一定一定得完全理解如何用增量和指数移动平均来计算价值均值下面的时序差分和TD(λ)你才能看懂二、时序差分学习(Temporal-Difference Learning)1、时序差分是用来解决什么问题的MC方法最大的缺点就是需要agent打完每一轮游戏才能从游戏序列中计算状态价值。这样是非常低效的比如有的游戏需要打10万轮才能策略收敛一轮游戏需要1小时那不要等到天荒地老了嘛。而且有的游戏是没有结束状态的那MC就没法用了。所以此时时序差分学习诞生了。所以时序差分是用来解决那种无法进行分幕的、非完备的MDP问题的。也所以时序差分学习也是一个无模型强化学习方法。2、时序差分的基本描述和基本思想1上图左边是时序差分的基本描述。中间是增量式every-visit的蒙特卡洛算法。右边是时序差分算法。将TD和MC放一起是因为TD是对MC的改进算法二者对比讲比较好理解。2A处前面讲动态规划时的迭代策略评估中当时就说那个迭代过程叫自举bootstrapping就是从一组非收敛的状态价值迭代到一组收敛的状态价值直白的说就是通过一组预测值来预测另外一组预测值就这样不断地预测最后还能预测正确值。其实这也是强化学习最大的缺点也是导致强化学习的收敛性一直都是一个行业问题。所以在很多复杂情况下强化学习的收敛性一直是无法证明的。那时序差分TD又是如何自举的呢就是上图C处灰框中的式子这个式子就是TD自举的过程。3B处上图B处是增量式蒙特卡洛算法的迭代过程。里面的α你可以看作第α步4C处由于B处的计算得agent实实在在地打了很多步游戏游戏中的每个状态都需要出现很多次才能求出的才是期望Gt。所以MC算法是用实际回报来更新迭代状态价值的。但是很多时候尤其是有些复杂游戏状态个数非常多的游戏是没法通过打很多很多步游戏来逼近真实的Gt的。所以上图C处的TD算法就非常高明了我想它大概是借鉴了贝尔曼期望方程的思路整体无法求解那我观察局部我找出局部之间的关系让一个无限循环的东西变成了一个递推式就是无限变成了有限。就是游戏的步数是无限的但游戏中的状态是有限的我无法从无数的步数中算出Gt那我可以列出有限状态之间的Gt的关系所以TD迭代的是状态价值的递推式所以TD用的是估计回报来更新迭代状态价值的。就类似动态规划中的迭代策略评估通过预测值来预测另外一组预测值一轮轮预测最后也能收敛到真正的状态价值。也所以TD算法的优点是只要采集当下动作的系统奖励和下一个转移状态即可。而MC的计算不仅需要当下动作的系统奖励还有当下状态以后的所有状态的奖励。当我们无法采集到很多后续状态奖励时MC算法就无能为力了此时TD算法就可堪大任。3、小结待续。。。。。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

企业网站域名主机做网站服务器吗

使用微软Azure机器学习构建预测性维护模型 1. 预测性维护模型概述 预测性维护在制造业等领域具有重要意义,能够带来显著的商业机会。通过机器学习技术,可以利用相关数据构建预测性维护解决方案,提前预测设备故障,减少维修成本和停机时间。 2. 构建模型前的数据准备 数据…

张小明 2026/1/3 15:11:13 网站建设

怎么做qq刷赞网站公司用dw做网站吗

建筑内外墙用底漆是指在涂饰工程涂装时,直接施涂于建筑物内外墙水泥砂浆基材、腻子层或其他基层材料的涂料 。JG/T 210-2018 建筑内外墙用底漆测试项目:测试项目测试方法容器中状态JG/T 210施工性JG/T 210低温稳定性GB/T 9286涂膜外观JG/T 210干燥时间GB…

张小明 2026/1/4 17:08:58 网站建设

浙江标力建设集团网站wordpress腾讯cos

第一章:为什么你的Open-AutoGLM在手机上跑不动?许多开发者尝试将开源大语言模型 Open-AutoGLM 部署到移动设备时,常常遇到运行失败、卡顿甚至闪退的问题。这并非代码本身存在缺陷,而是由移动设备的硬件限制与模型运行需求不匹配所…

张小明 2026/1/4 22:38:46 网站建设

网站开发需解决的难题宁波开发网络推广平台

深入探索Shell编程:位置参数、循环与字符串处理 1. 位置参数的奥秘 位置参数在Shell脚本中扮演着重要角色,它允许我们在脚本执行时传递参数。例如,当我们传递 word words with spaces 作为参数时,不同的引用方式会产生不同的结果: | 引用方式 | 结果 | | ---- | ---…

张小明 2026/1/3 16:36:52 网站建设

磐石网站seo可以自己做图片的软件

PyTorch-CUDA-v2.6镜像是否支持贝叶斯神经网络? 在构建高可靠性人工智能系统的过程中,模型的不确定性建模正变得越来越关键。尤其是在医疗诊断、工业检测或自动驾驶等容错率极低的场景中,我们不仅需要知道“模型预测了什么”,更需…

张小明 2026/1/4 18:42:09 网站建设

湛江建站费用网址域名注册

BabelDOC:智能文档处理系统的架构解析与应用实践 【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 在全球化协作日益频繁的今天,技术文档的跨语言处理已成为科研人员和工程…

张小明 2026/1/3 17:00:45 网站建设