reasoning training via RLAIF - a jerwitz Collection

jerwitz 's Collections

Agent training frameworks

reasoning training via RLAIF

Reasoning techniques (at inference)

Retrieval-intelligence

reasoning training via RLAIF

updated about 11 hours ago

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Paper • 2504.20157 • Published 3 days ago • 30