yuchang's picture

1 3 19

yuchang

hiyuchang

·

AI & ML interests

None yet

Organizations

upvoted a paper 5 months ago

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Paper • 2508.11408 • Published Aug 15, 2025 • 8

upvoted a paper 7 months ago

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Paper • 2505.17826 • Published May 23, 2025 • 9

upvoted an article 10 months ago

Article

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

Feb 7, 2025

•

267