Add files using upload-large-folder tool

Browse files

Files changed (7) hide show

README.md +0 -4
config.json +0 -0
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +161 -161

README.md CHANGED Viewed

@@ -11,10 +11,6 @@ pipeline_tag: text-generation
 # unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx
-test model
-this is part of a series created to evaluate the effect of quanting with mixed precision
 This model [unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx](https://huggingface.co/unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx) was
 converted to MLX format from [unsloth/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct)
 using mlx-lm version **0.26.3**.

 # unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx
 This model [unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx](https://huggingface.co/unsloth-Qwen3-Coder-30B-A3B-Instruct-qx4-mlx) was
 converted to MLX format from [unsloth/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct)
 using mlx-lm version **0.26.3**.

config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57a0225b8bbe916570a8849c38eaa7fc20b0414f528a8b1f81ad34c967b451ac
-size 5299740222

 version https://git-lfs.github.com/spec/v1
+oid sha256:e761cd56755302de9e21dcdca6c453a6a926092c593bb2fa59d1a38ac22a807e
+size 5243957509

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d23e1d0415c0747fe9cb502ad4c687ece7a314701cdb991073fe459cb54528f2
-size 5273751967

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a5c492d492634f72d19fc5226f4e97c2e959f3f347d273e41ca4125380115ba
+size 5365752431

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b3d34dc0d89773bdb87ca7b249dceb89345816ee94f7772d4c6e514bcc0c340
-size 5347441648

 version https://git-lfs.github.com/spec/v1
+oid sha256:db958a069ee4b91f0403105aff116bc8a35534f30f0fd4f07b38ce0c95c21a8d
+size 5365337594

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b26dbea76f5f12408512cf823d7f6c2f05684a879e37ae78c4e32d33d77bdfa
-size 3235262240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c95aea3d8d36cbf74e2b88ef1b610131bf3575b1eb4c51a4f0214fd982d8dc8e
+size 4390779495

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 19156037632,
         "total_parameters": 30532122624
     },
     "weight_map": {
@@ -98,9 +98,9 @@
         "model.layers.11.mlp.gate.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.gate.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.gate.weight": "model-00001-of-00004.safetensors",
-        "model.layers.11.mlp.switch_mlp.down_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.11.mlp.switch_mlp.down_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.11.mlp.switch_mlp.down_proj.weight": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
@@ -122,34 +122,34 @@
         "model.layers.11.self_attn.v_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.self_attn.v_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.input_layernorm.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.mlp.gate.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.mlp.gate.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.mlp.gate.weight": "model-00001-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.12.mlp.switch_mlp.gate_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.mlp.switch_mlp.gate_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.mlp.switch_mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.k_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.k_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.o_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.o_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.q_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.q_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.v_proj.biases": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.v_proj.scales": "model-00001-of-00004.safetensors",
-        "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
         "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
         "model.layers.13.mlp.gate.biases": "model-00002-of-00004.safetensors",
         "model.layers.13.mlp.gate.scales": "model-00002-of-00004.safetensors",
@@ -490,7 +490,7 @@
         "model.layers.24.mlp.gate.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.gate.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.gate.weight": "model-00002-of-00004.safetensors",
-        "model.layers.24.mlp.switch_mlp.down_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00004.safetensors",
@@ -514,62 +514,62 @@
         "model.layers.24.self_attn.v_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.self_attn.v_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.input_layernorm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.gate.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.gate.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.gate.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.down_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.up_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.up_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.mlp.switch_mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.k_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.k_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.o_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.o_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.q_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.q_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.v_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.v_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.input_layernorm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.gate.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.gate.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.gate.weight": "model-00002-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.up_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.k_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.k_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.o_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.o_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.q_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.q_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.v_proj.biases": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.v_proj.scales": "model-00002-of-00004.safetensors",
-        "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
         "model.layers.27.mlp.gate.biases": "model-00003-of-00004.safetensors",
         "model.layers.27.mlp.gate.scales": "model-00003-of-00004.safetensors",
@@ -910,15 +910,15 @@
         "model.layers.38.mlp.gate.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.gate.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.gate.weight": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.up_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.up_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.38.mlp.switch_mlp.up_proj.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
@@ -934,34 +934,34 @@
         "model.layers.38.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.input_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.gate.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.gate.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.gate.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.up_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.up_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.mlp.switch_mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.k_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.o_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.o_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.q_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.q_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.39.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
         "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
         "model.layers.4.mlp.gate.biases": "model-00001-of-00004.safetensors",
         "model.layers.4.mlp.gate.scales": "model-00001-of-00004.safetensors",
@@ -990,38 +990,38 @@
         "model.layers.4.self_attn.v_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-        "model.layers.40.input_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.gate.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.gate.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.gate.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.up_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.up_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.mlp.switch_mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.k_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.o_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.o_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.q_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.q_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.40.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.input_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.mlp.gate.biases": "model-00003-of-00004.safetensors",
-        "model.layers.41.mlp.gate.scales": "model-00003-of-00004.safetensors",
-        "model.layers.41.mlp.gate.weight": "model-00003-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.biases": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.scales": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.weight": "model-00004-of-00004.safetensors",
@@ -1031,21 +1031,21 @@
         "model.layers.41.mlp.switch_mlp.up_proj.biases": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.up_proj.scales": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.up_proj.weight": "model-00004-of-00004.safetensors",
-        "model.layers.41.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.k_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.o_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.o_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.q_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.q_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
-        "model.layers.41.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
         "model.layers.42.input_layernorm.weight": "model-00004-of-00004.safetensors",
         "model.layers.42.mlp.gate.biases": "model-00004-of-00004.safetensors",
         "model.layers.42.mlp.gate.scales": "model-00004-of-00004.safetensors",

 {
     "metadata": {
+        "total_size": 20365668352,
         "total_parameters": 30532122624
     },
     "weight_map": {
         "model.layers.11.mlp.gate.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.gate.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.gate.weight": "model-00001-of-00004.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.mlp.switch_mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
         "model.layers.11.self_attn.v_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.11.self_attn.v_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+        "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.gate.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.gate.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.gate.weight": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.12.mlp.switch_mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.k_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.k_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.o_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.o_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.q_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.q_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.v_proj.biases": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.v_proj.scales": "model-00002-of-00004.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
         "model.layers.13.mlp.gate.biases": "model-00002-of-00004.safetensors",
         "model.layers.13.mlp.gate.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.gate.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.gate.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.gate.weight": "model-00002-of-00004.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.down_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.down_proj.weight": "model-00002-of-00004.safetensors",
         "model.layers.24.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.self_attn.v_proj.biases": "model-00002-of-00004.safetensors",
         "model.layers.24.self_attn.v_proj.scales": "model-00002-of-00004.safetensors",
         "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.gate.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.gate.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.gate.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.k_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.o_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.o_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.q_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.q_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.gate.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.gate.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.gate.weight": "model-00003-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.26.mlp.switch_mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
         "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
         "model.layers.27.mlp.gate.biases": "model-00003-of-00004.safetensors",
         "model.layers.27.mlp.gate.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.gate.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.gate.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.gate.weight": "model-00003-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.weight": "model-00004-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.weight": "model-00004-of-00004.safetensors",
         "model.layers.38.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.k_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.v_proj.biases": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.v_proj.scales": "model-00003-of-00004.safetensors",
         "model.layers.38.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+        "model.layers.39.input_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.gate.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.gate.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.gate.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.k_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.k_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.o_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.o_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.q_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.q_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.v_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.v_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.39.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
         "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
         "model.layers.4.mlp.gate.biases": "model-00001-of-00004.safetensors",
         "model.layers.4.mlp.gate.scales": "model-00001-of-00004.safetensors",
         "model.layers.4.self_attn.v_proj.biases": "model-00001-of-00004.safetensors",
         "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00004.safetensors",
         "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+        "model.layers.40.input_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.gate.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.gate.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.gate.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.k_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.k_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.o_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.o_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.q_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.q_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.v_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.v_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.40.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.input_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.mlp.gate.biases": "model-00004-of-00004.safetensors",
+        "model.layers.41.mlp.gate.scales": "model-00004-of-00004.safetensors",
+        "model.layers.41.mlp.gate.weight": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.biases": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.scales": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.down_proj.weight": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.up_proj.biases": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.up_proj.scales": "model-00004-of-00004.safetensors",
         "model.layers.41.mlp.switch_mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.k_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.k_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.o_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.o_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.q_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.q_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.v_proj.biases": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.v_proj.scales": "model-00004-of-00004.safetensors",
+        "model.layers.41.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
         "model.layers.42.input_layernorm.weight": "model-00004-of-00004.safetensors",
         "model.layers.42.mlp.gate.biases": "model-00004-of-00004.safetensors",
         "model.layers.42.mlp.gate.scales": "model-00004-of-00004.safetensors",