AWQ or GPTQ quantization?

#8
by lesj0610 - opened

Can individuals easily quantize models themselves with AWQ or GPTQ, providing multiple configuration options?
공식 자료가 아닌 직접 학습하여 merge와 quantize 를 하며 사용하고 싶거든요.

llama 아키텍쳐에 weight들을 매핑해서(llamafied model로 변환한다고들 표현하죠) 진행하시는게 제일 간단하지 않을까 생각되네요. 말씀하신 툴들이 확실히 지원한다 싶은 아키텍쳐에 맞추어서...
I recommend to convert to llamafied model for compatibility.

LG AI Research org

안녕하세요, 질문 주셔서 감사합니다.
먼저 GPTQ의 경우 GPTQModel 의 공식 예제를 활용해서 진행이 가능합니다.
AWQ의 경우 AutoAWQ에 EXAONE 4.0 모델을 추가해 활용했습니다. QK-Reorder-LN 구조로 인해 QKV projection의 input LN이 없기 때문에 apply_scale() 에서 scale_ln_fcs() 의 적용을 생략했습니다.
추가로 EXAONE 4.0의 경우 모델 구조가 다르기 때문에 llamafied가 불가능하다는 점 말씀드립니다.

Hello, Thank you for your question.
For GPTQ, you can quantize the EXAONE 4.0 models using the official examples from GPTQModel.
For AWQ, we added EXAONE 4.0 model support to AutoAWQ for quantization. Due to our QK-Reorder-LN architecture, there is no input layer normalization before the QKV projection, so we skipped applying the scale_ln_fcs() function in apply_scale().
Additionally, please note that EXAONE 4.0 models cannot be llamafied due to their architectural differences from LLaMA.

Sign up or log in to comment