Minimal-RL - a RLHFlow Collection

RLHFlow 's Collections

Decision-Tree Reward Models

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

Minimal-RL

updated 5 days ago

RLHFlow/Qwen2.5-Math-7B-Zero-RAFTpp

Text Generation • Updated 7 days ago • 6 • 1
RLHFlow/Qwen2.5-Math-7B-Zero-Reinforce-Rej

Text Generation • Updated 7 days ago • 3 • 1