HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO / model.safetensors

Commit History

Upload LlamaForCausalLM

6bd03f6
verified

HuangXinBa commited on May 27

Upload LlamaForCausalLM

33bf48c
verified

HuangXinBa commited on May 27