OPEA
/

MiniMax-Text-01-int4-sym-inc-preview

@@ -30,7 +30,7 @@ from auto_round import AutoRoundConfig  ##must import for autoround format
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-quantized_model_dir = "/data3/wenhuach/MiniMax-Text-01-int4-sym-w4g128"
 tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(quantized_model_dir, trust_remote_code=True, torch_dtype=torch.bfloat16,
@@ -41,13 +41,13 @@ def forward_hook(module, input, output):
     return torch.clamp(output, -65504, 65504).to(torch.bfloat16)
-def register_fp16_pre_hooks(model):
     for name, module in model.named_modules():
         if "QuantLinear" in module.__class__.__name__ or isinstance(module, torch.nn.Linear):
             module.register_forward_hook(forward_hook)
-register_fp16_pre_hooks(model)
 tokenizer.pad_token = tokenizer.eos_token
 prompts = [
@@ -153,7 +153,7 @@ pip3 install git+https://github.com/intel/auto-round.git@bf16_inference
 ```python
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
 model_name = "MiniMaxAI/MiniMax-Text-01"
 tokenizer = AutoTokenizer.from_pretrained(model_name)

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+quantized_model_dir = "OPEA/MiniMax-Text-01-int4-sym-inc-preview"
 tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(quantized_model_dir, trust_remote_code=True, torch_dtype=torch.bfloat16,
     return torch.clamp(output, -65504, 65504).to(torch.bfloat16)
+def register_fp16_hooks(model):
     for name, module in model.named_modules():
         if "QuantLinear" in module.__class__.__name__ or isinstance(module, torch.nn.Linear):
             module.register_forward_hook(forward_hook)
+register_fp16_hooks(model)
 tokenizer.pad_token = tokenizer.eos_token
 prompts = [
 ```python
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "MiniMaxAI/MiniMax-Text-01"
 tokenizer = AutoTokenizer.from_pretrained(model_name)