QuantTrio
/

GLM-4.5-Air-GPTQ-Int4-Int8Mix

Text Generation

quantization fix

4-bit precision

Model card Files Files and versions Community

JunHowie commited on 14 days ago

Commit

76f6dd3

·

verified ·

1 Parent(s): e20c7d1

Update README.md

Files changed (1) hide show

README.md +17 -2

README.md CHANGED Viewed

@@ -21,8 +21,23 @@ base_model_relation: quantized
   ```
   CONTEXT_LENGTH=32768
-  vllm serve     QuantTrio/GLM-4.5-Air-GPTQ-Int4-Int8Mix     --served-model-name GLM-4.5-Air-GPTQ-Int4-Int8Mix     --enable-expert-parallel     --swap-space 16     --max-num-seqs 512     --max-model-len $CONTEXT_LENGTH     --max-seq-len-to-capture $CONTEXT_LENGTH     --gpu-memory-utilization 0.9     --tensor-parallel-size 8     --trust-remote-code     --disable-log-requests     --host 0.0.0.0     --port 8000
-  ```
   ### 【Dependencies】
   ```

   ```
   CONTEXT_LENGTH=32768
+CONTEXT_LENGTH=32768
+VLLM_USE_MODELSCOPE=true vllm serve \
+    QuantTrio/GLM-4.5-Air-GPTQ-Int4-Int8Mix \
+    --served-model-name GLM-4.5-Air-GPTQ-Int4-Int8Mix \
+    --enable-expert-parallel \
+    --swap-space 16 \
+    --max-num-seqs 512 \
+    --max-model-len $CONTEXT_LENGTH \
+    --max-seq-len-to-capture $CONTEXT_LENGTH \
+    --gpu-memory-utilization 0.9 \
+    --tensor-parallel-size 8 \
+    --trust-remote-code \
+    --disable-log-requests \
+    --host 0.0.0.0 \
+    --port 8000
+```
   ### 【Dependencies】
   ```