HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO

Ctrl+K

Ctrl+K

1 contributor

History: 2 commits

HuangXinBa's picture

Upload LlamaForCausalLM

33bf48c verified 3 months ago