从RNN、ResNet以及ODE引入Neural ODE(神经微分方程)架构,推导其前向过程和后向过程计算方法。
无需任何先验强化学习知识理解PPO和GRPO
通过简明的类比,逐一介绍RL中的actor-critic机制, PPO, clip operation, reference model, GRPO
基于hexo搭建博客
使用Redefine主题,基于hexo框架搭建静态博客。包含配置:MathJax支持、瀑布流相册。TODO: github pages, obsidian联动.
组合数学
组合数学课程笔记
概率论
《概率导论》笔记
MathJax速查手册
MathJax常用公式手册
1