ArliAI
/

Llama-3.1-70B-ArliAI-RPMax-v1.1-GGUF

Inference Endpoints

Model card Files Files and versions Community

OwenArli commited on Sep 9

Commit

0a29fc8

•

1 Parent(s): f9258db

Update README.md

Files changed (1) hide show

README.md +4 -0

README.md CHANGED Viewed

@@ -32,7 +32,11 @@ Let us know what you think of the model! The 8B and 12B versions of RPMax had gr
 The model is available in quantized formats:
 * **FP16**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1
 * **GGUF**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1-GGUF
 ## Suggested Prompt Format

 The model is available in quantized formats:
+We recommend using full weights or GPTQ as GGUF seems to generate gibberish at low quants.
 * **FP16**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1
+* **GPTQ_Q4**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1-GPTQ_Q4
+* **GPTQ_Q8**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1-GPTQ_Q8
 * **GGUF**: https://huggingface.co/ArliAI/Llama-3.1-70B-ArliAI-RPMax-v1.1-GGUF
 ## Suggested Prompt Format