iproskurina
/

bloom-560m-GPTQ-4bit-g128

@@ -67,3 +67,31 @@ model = AutoGPTQForCausalLM.from_quantized(pretrained_model_dir, device="cuda:0"
 pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer)
 print(pipeline("auto-gptq is")[0]["generated_text"])
 ```

 pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer)
 print(pipeline("auto-gptq is")[0]["generated_text"])
 ```
+### Run the model with GPTQModel
+GPTQModel package: https://github.com/ModelCloud/GPTQModel
+```
+pip install -v gptqmodel=="1.8.0" --no-build-isolation
+from gptqmodel import GPTQModel
+model_id = 'iproskurina/bloom-560m-GPTQ-4bit-g128'
+model = GPTQModel.load(model_id)
+result = model.generate("Uncovering deep insights")[0] # tokens
+print(model.tokenizer.decode(result)) # string output
+```
+### Run the model with GPTQModel
+GPTQModel package: https://github.com/ModelCloud/GPTQModel
+```
+pip install -v gptqmodel=="1.8.0" --no-build-isolation
+from gptqmodel import GPTQModel
+model_id = 'iproskurina/bloom-560m-GPTQ-4bit-g128'
+model = GPTQModel.load(model_id)
+result = model.generate("Uncovering deep insights")[0] # tokens
+print(model.tokenizer.decode(result)) # string output
+```