Published onJanuary 25, 2025蒙特卡洛树搜索(Monte Carlo Tree Search)的技术演进(2): AlphaZero规划强化学习guideAlphaZero在这篇文章中,我将蒙特卡洛树搜索为第一视角,探究AlphaZero的技术架构,演示如何进行learning by planningRead more →
Published onJanuary 21, 2025蒙特卡洛树搜索(Monte Carlo Tree Search)的技术演进(1): UCT算法(Upper Confidence Bounds applied to Trees)规划最优控制强化学习guide在这篇文章中,我通过 high-level 的视角,探究蒙特卡洛树搜索的技术演进路线,揭示如何将蒙特卡洛树搜索算法应用于不同性质的MDP以解决复杂的序列决策问题Read more →
Published onJanuary 5, 2025规划,最优控制与强化学习:概念解析和算法分类规划最优控制强化学习guide在这篇文章中,我通过 high-level 的视角,探究规划,最优控制与深度强化学习背后统一的全貌是什么以及给出每个研究领域下的算法分类Read more →
Published onAugust 5, 2024最优控制与强化学习:定义,概念解析和技术学习路线最优控制强化学习guide在这篇文章中,我想要通过 high-level 的视角,探究最优控制与深度强化学习背后统一的全貌是什么以及这两个领域的核心联系以及区别点,试图填补最优控制与强化学习之间的在认知层面的 gap.Read more →