Edit Models filters

Apps

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

169

Full-text search

Active filters: llmcompressor

RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic

Text Generation • 8B • Updated Sep 22 • 37k • 8

RedHatAI/phi-4-quantized.w4a16

Text Generation • 3B • Updated Sep 25 • 722 • 4

RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-quantized.w4a16

Image-Text-to-Text • 5B • Updated Oct 29 • 160k • 10

RedHatAI/Qwen3-4B-quantized.w4a16

Text Generation • 1B • Updated May 13 • 7.12k • 3

RedHatAI/Qwen3-8B-quantized.w4a16

Text Generation • 2B • Updated May 13 • 6.23k • 3

RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8

Text Generation • 8B • Updated Sep 22 • 12.4k • 18

RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w4a16

Text Generation • 2B • Updated Sep 22 • 30.1k • 30

RedHatAI/Llama-3.2-1B-Instruct-quantized.w8a8

Text Generation • 1B • Updated Oct 16, 2024 • 7.95k • 7

RedHatAI/Llama-3.2-3B-Instruct-quantized.w8a8

Text Generation • 4B • Updated Jul 10 • 4.37k • 1

RedHatAI/Llama-3.2-1B-Instruct-FP8

Text Generation • 1B • Updated Oct 16, 2024 • 89.7k • 3

RedHatAI/Llama-3.2-3B-Instruct-FP8

Text Generation • 4B • Updated Oct 16, 2024 • 1.6k • 6

RedHatAI/Qwen2.5-0.5B-quantized.w8a8

Text Generation • 0.6B • Updated Dec 3, 2024 • 25

RedHatAI/Qwen2.5-0.5B-Instruct-quantized.w8a8

Text Generation • 0.6B • Updated Dec 9, 2024 • 28

RedHatAI/Qwen2.5-1.5B-quantized.w8a8

Text Generation • 2B • Updated Dec 3, 2024 • 80.9k • 2

RedHatAI/Qwen2.5-7B-quantized.w8a8

Text Generation • 8B • Updated Dec 3, 2024 • 68 • 1

RedHatAI/Qwen2.5-72B-quantized.w8a8

Text Generation • 73B • Updated Dec 3, 2024 • 6

RedHatAI/Qwen2.5-7B-quantized.w4a16

Text Generation • 2B • Updated Apr 16 • 64

RedHatAI/Qwen2.5-0.5B-FP8-dynamic

Text Generation • 0.6B • Updated Dec 3, 2024 • 6

RedHatAI/Qwen2.5-1.5B-FP8-dynamic

Text Generation • 2B • Updated Dec 3, 2024 • 19

RedHatAI/Qwen2.5-3B-FP8-dynamic

Text Generation • 3B • Updated Dec 3, 2024 • 11

RedHatAI/Qwen2.5-7B-FP8-dynamic

Text Generation • 8B • Updated Apr 16 • 30

RedHatAI/Qwen2.5-72B-FP8-dynamic

Text Generation • 73B • Updated Dec 3, 2024 • 29 • 1

RedHatAI/Qwen2.5-14B-FP8-dynamic

Text Generation • 15B • Updated Dec 3, 2024 • 16 • 2

GusPuffy/Llama-3.1-70B-ArliAI-RPMax-v1.3-GPTQ

11B • Updated Jul 19 • 5

RedHatAI/Qwen2.5-14B-quantized.w8a8

Text Generation • 15B • Updated Dec 3, 2024 • 16 • 2

RedHatAI/Qwen2.5-3B-quantized.w8a8

Text Generation • 3B • Updated Dec 3, 2024 • 21 • 1

RedHatAI/Qwen2.5-14B-Instruct-quantized.w8a8

Text Generation • 15B • Updated Dec 17, 2024 • 294

RedHatAI/Qwen2.5-0.5B-quantized.w4a16

Text Generation • 0.3B • Updated Dec 17, 2024 • 12

RedHatAI/Qwen2.5-1.5B-quantized.w4a16

Text Generation • 0.6B • Updated Dec 17, 2024 • 23

RedHatAI/Qwen2.5-3B-quantized.w4a16

Text Generation • 1.0B • Updated Dec 17, 2024 • 35