rl papers - a amongstars Collection

amongstars 's Collections

llms

rl papers

updated 1 day ago

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Paper • 2506.16141 • Published 7 days ago • 25