LLM-O1 - a jzwong Collection

jzwong 's Collections

MLLM

MLLM-O1

LLM

LLM-O1

Novel

SYS

LLM-O1

updated 1 day ago

s1: Simple test-time scaling

Paper • 2501.19393 • Published Jan 31 • 120
Competitive Programming with Large Reasoning Models

Paper • 2502.06807 • Published Feb 3 • 70
LIMO: Less is More for Reasoning

Paper • 2502.03387 • Published Feb 5 • 61
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Paper • 2502.06703 • Published Feb 10 • 151
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Paper • 2502.06781 • Published Feb 10 • 61
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

Paper • 2503.10460 • Published Mar 13 • 28
An Empirical Study on Eliciting and Improving R1-like Reasoning Models

Paper • 2503.04548 • Published Mar 6 • 8
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 122
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 48
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

Paper • 2503.24290 • Published 26 days ago • 62
Inference-Time Scaling for Generalist Reward Modeling

Paper • 2504.02495 • Published 24 days ago • 54
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Paper • 2504.05118 • Published 19 days ago • 25
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Paper • 2504.11343 • Published 11 days ago • 14
Tina: Tiny Reasoning Models via LoRA

Paper • 2504.15777 • Published 5 days ago • 37
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published 8 days ago • 101
TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published 4 days ago • 82
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published 6 days ago • 72