zijianh
/

DeepSeek-R1-Distill-Qwen-7B-RL-length-penalty-low-medium-0_01-new

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-7B-RL-length-penalty-low-medium-0_01-new / model-00001-of-00004.safetensors

Commit History

Training in progress, step 58

e25b8ff
verified

zijianh commited on 30 days ago

Training in progress, step 50

cba687c
verified

zijianh commited on 30 days ago

Training in progress, step 40

05ae62f
verified

zijianh commited on 30 days ago

Training in progress, step 30

d3ac2e9
verified

zijianh commited on 30 days ago

Training in progress, step 20

f1bf664
verified

zijianh commited on about 1 month ago

Training in progress, step 10

f736f48
verified

zijianh commited on about 1 month ago