gptq 4bit
#1
by
myx0
- opened
А есть квантованая модель 4-5 бит, чтобы помещалась в 10 гигов video RAM?
Привет
https://huggingface.co/IlyaGusev/saiga_llama3_8b_gguf же. GPTQ версии нет, но её должно быть несложно сварить самостоятельно.
@myx0 Если есть желание использовать exllama то вот - https://huggingface.co/Slvcxc/saiga_llama3_8b-V4-8.0bpw-h8-exl2, правда в качестве особо не уверен, ибо ранее никогда не квантовал модели для русского языка.
IlyaGusev
changed discussion status to
closed