通过简明的类比,逐一介绍RL中的actor-critic机制, PPO, clip operation, reference model, GRPO
基于hexo搭建博客
使用Redefine主题,基于hexo框架搭建静态博客。包含配置:MathJax支持、瀑布流相册。TODO: github pages, obsidian联动.
通过简明的类比,逐一介绍RL中的actor-critic机制, PPO, clip operation, reference model, GRPO
使用Redefine主题,基于hexo框架搭建静态博客。包含配置:MathJax支持、瀑布流相册。TODO: github pages, obsidian联动.