codelion
/

gemma-3-1b-it-reasoning-grpo-lora

Text Generation

chain-of-thought

preference-learning

self-improvement

Model card Files Files and versions

gemma-3-1b-it-reasoning-grpo-lora

Ctrl+K

Ctrl+K

1 contributor

History: 8 commits

codelion's picture

Update README.md

eb4c1f5 verified about 1 month ago