Quantization - a Julius-L Collection

Julius-L 's Collections

inference acceleration

multimodal dataset

Memory Efficient Training

Model Architecture

LLM Technical Reports

Quantization

updated Oct 25, 2024

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Paper • 2409.17066 • Published Sep 25, 2024 • 29
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Paper • 2410.02367 • Published Oct 3, 2024 • 51