Blog Tags Projects About

Latest

A blog created with Next.js and Tailwind.css

Published on
January 25, 2025
蒙特卡洛树搜索（Monte Carlo Tree Search）的技术演进(2)： AlphaZero
规划强化学习 guide AlphaZero
在这篇文章中，我将蒙特卡洛树搜索为第一视角，探究AlphaZero的技术架构，演示如何进行learning by planning
Read more →
Published on
January 21, 2025
蒙特卡洛树搜索（Monte Carlo Tree Search）的技术演进(1)： UCT算法(Upper Confidence Bounds applied to Trees)
规划最优控制强化学习 guide
在这篇文章中，我通过 high-level 的视角，探究蒙特卡洛树搜索的技术演进路线,揭示如何将蒙特卡洛树搜索算法应用于不同性质的MDP以解决复杂的序列决策问题
Read more →
Published on
January 5, 2025
规划，最优控制与强化学习:概念解析和算法分类
规划最优控制强化学习 guide
在这篇文章中，我通过 high-level 的视角，探究规划,最优控制与深度强化学习背后统一的全貌是什么以及给出每个研究领域下的算法分类
Read more →
Published on
August 5, 2024
最优控制与强化学习：定义，概念解析和技术学习路线
最优控制强化学习 guide
在这篇文章中，我想要通过 high-level 的视角，探究最优控制与深度强化学习背后统一的全貌是什么以及这两个领域的核心联系以及区别点，试图填补最优控制与强化学习之间的在认知层面的 gap.
Read more →

Subscribe to the newsletter