HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO

Ctrl+K

Ctrl+K

1 contributor

History: 1 commit

HuangXinBa's picture

initial commit

4d8631f verified 3 months ago

.gitattributes

1.52 kB

initial commit 3 months ago