RedHatAI
/

llama2.c-stories110M-pruned2.4

Text Generation

text-generation-inference

Model card Files Files and versions

mwitiderrick commited on Mar 5, 2024

Commit

bf5be23

·

verified ·

1 Parent(s): a94ce9c

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ Run in a Python pipeline for local inference:
 ```python
 from vllm import LLM, SamplingParams
-model = LLM("nm-testing/llama2.c-stories110M-pruned2.4", sparsity="sparse_w16a16")
 prompt = "My name is "
 sampling_params = SamplingParams(max_tokens=100,temperature=0)
 outputs = model.generate(prompt, sampling_params=sampling_params)

 ```python
 from vllm import LLM, SamplingParams
+model = LLM("nm-testing/llama2.c-stories110M-pruned2.4", sparsity="semi_structured_sparse_w16a16")
 prompt = "My name is "
 sampling_params = SamplingParams(max_tokens=100,temperature=0)
 outputs = model.generate(prompt, sampling_params=sampling_params)