HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO

Ctrl+K

Ctrl+K

1 contributor

History: 11 commits

HuangXinBa's picture

Add full model card (README.md)

3bbfa9a verified 3 months ago