luckeciano
/

Qwen-2.5-7B-RL-LACPO-NoBaselineNoKLNoEntropy0.5NoSmooth

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

Qwen-2.5-7B-RL-LACPO-NoBaselineNoKLNoEntropy0.5NoSmooth / .gitattributes

Commit History

Training in progress, step 1

c0c17c5
verified

luckeciano commited on 26 days ago

initial commit

6666867
verified

luckeciano commited on 26 days ago