RedHatAI
/

llama2.c-stories110M-pruned2.4

Text Generation

text-generation-inference

Model card Files Files and versions

mwitiderrick commited on Mar 5, 2024

Commit

a94ce9c

·

verified ·

1 Parent(s): 00d154a

Update README.md

Files changed (1) hide show

README.md +1 -3

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ tags:
 - sparse
 ---
-## llama2.c-stories110M-pruned50
 This repo contains model files for [llama2.c 110M tinystories](https://huggingface.co/Xenova/llama2.c-stories110M) optimized for [NM-vLLM](https://github.com/neuralmagic/nm-vllm), a high-throughput serving engine for compressed LLMs.
 This model was pruned with [SparseGPT](https://arxiv.org/abs/2301.00774), using [SparseML](https://github.com/neuralmagic/sparseml).
@@ -24,8 +24,6 @@ from vllm import LLM, SamplingParams
 model = LLM("nm-testing/llama2.c-stories110M-pruned2.4", sparsity="sparse_w16a16")
 prompt = "My name is "
-formatted_prompt =  f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
 sampling_params = SamplingParams(max_tokens=100,temperature=0)
 outputs = model.generate(prompt, sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)

 - sparse
 ---
+## llama2.c-stories110M-pruned2.4
 This repo contains model files for [llama2.c 110M tinystories](https://huggingface.co/Xenova/llama2.c-stories110M) optimized for [NM-vLLM](https://github.com/neuralmagic/nm-vllm), a high-throughput serving engine for compressed LLMs.
 This model was pruned with [SparseGPT](https://arxiv.org/abs/2301.00774), using [SparseML](https://github.com/neuralmagic/sparseml).
 model = LLM("nm-testing/llama2.c-stories110M-pruned2.4", sparsity="sparse_w16a16")
 prompt = "My name is "
 sampling_params = SamplingParams(max_tokens=100,temperature=0)
 outputs = model.generate(prompt, sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)