ubergarm
/

GLM-4.5-Air-GGUF

Text Generation

Model card Files Files and versions Community

ubergarm commited on Aug 6

Commit

d968e06

·

1 Parent(s): 1ae325a

fixup IQ4_KSS recipe

Files changed (1) hide show

README.md +11 -3

README.md CHANGED Viewed

@@ -135,9 +135,17 @@ blk\..*\.ffn_down_shexp\.weight=q6_0
 blk\..*\.ffn_(gate|up)_shexp\.weight=iq5_ks
 # Routed Experts Layers [1-46]
-blk\..*\.ffn_down_exps\.weight=iq4_xs
 blk\..*\.ffn_(gate|up)_exps\.weight=iq4_kss
 # Non-Repeating Layers
 token_embd\.weight=iq4_k
 output\.weight=iq6_k
@@ -148,11 +156,11 @@ custom=$(
   sed -Ez 's:\n+:,:g;s:,$::;s:^,::'
 )
-numactl -N 1 -m 1 \
 ./build/bin/llama-quantize \
     --custom-q "$custom" \
     --imatrix /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/imatrix-GLM-4.5-Air-BF16.dat \
-    /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/GLM-4.5-Air-128x8.1B-BF16-00001-of-00005.gguf \
     /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/GLM-4.5-Air-IQ4_KSS.gguf \
     IQ4_KSS \
     192

 blk\..*\.ffn_(gate|up)_shexp\.weight=iq5_ks
 # Routed Experts Layers [1-46]
+#blk\.(1|46)\.ffn_down_exps\.weight=q8_0
+#blk\.(1|46)\.ffn_(gate|up)_exps\.weight=q8_0
+blk\..*\.ffn_down_exps\.weight=iq4_nl
 blk\..*\.ffn_(gate|up)_exps\.weight=iq4_kss
+# NextN MTP Layer [46]
+blk\..*\.nextn\.embed_tokens\.weight=iq5_ks
+blk\..*\.nextn\.shared_head_head\.weight=iq5_ks
+blk\..*\.nextn\.eh_proj\.weight=q8_0
 # Non-Repeating Layers
 token_embd\.weight=iq4_k
 output\.weight=iq6_k
   sed -Ez 's:\n+:,:g;s:,$::;s:^,::'
 )
+numactl -N 0 -m 0 \
 ./build/bin/llama-quantize \
     --custom-q "$custom" \
     --imatrix /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/imatrix-GLM-4.5-Air-BF16.dat \
+    /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/GLM-4.5-Air-128x9.4B-BF16-00001-of-00005.gguf \
     /mnt/raid/models/ubergarm/GLM-4.5-Air-GGUF/GLM-4.5-Air-IQ4_KSS.gguf \
     IQ4_KSS \
     192