HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO / .gitattributes

Commit History

initial commit

4d8631f
verified

HuangXinBa commited on May 27