Trained with Unsloth

Files changed (4) hide show

README.md CHANGED Viewed

@@ -7,6 +7,7 @@ tags:
 - qwen3
 - trl
 - sft
 license: apache-2.0
 language:
 - en

 - qwen3
 - trl
 - sft
+- grpo
 license: apache-2.0
 language:
 - en

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d997fbad3270356504cb7d6f74dc04f44f90926a784d0f1256886d66f8be907
-size 4967215360

 version https://git-lfs.github.com/spec/v1
+oid sha256:200078678e42f2cab38d761e9a52f905cf39177e33583325ee3056010b67057f
+size 4967214624

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:294df25f2acc742c74bd8641bbef3e8944e9fd34434acaa47ece9be30c463c0e
-size 3077766632

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b1d377568e61c931f76beff962b97d67d0696e53f4ca6c40c0dff35cb409696
+size 3077767360

model.safetensors.index.json CHANGED Viewed

@@ -152,10 +152,10 @@
     "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",

     "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",