DavidDeng's picture

2 3

DavidDeng

ZiHDeng

·

AI & ML interests

None yet

Organizations

None yet

upvoted an article 3 months ago

Article

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

By

•

Feb 7

• 199

upvoted a paper 5 months ago

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28 • 123