Reinforcement Learning - a thomas-ferraz Collection

thomas-ferraz 's Collections

Retrieve-Reasoning

Reinforcement Learning

Reinforcement Learning

updated about 20 hours ago

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

Paper • 2504.16078 • Published 9 days ago • 20
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Paper • 2504.20157 • Published 3 days ago • 30