Demo-Llama-Guard-3-1B

Running

schroneko commited on Jul 23, 2024

Commit

83fe2ae

verified ·

1 Parent(s): a7a2c27

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ dtype = torch.bfloat16
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
-@spaces.GPU
 def load_model():
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     model = AutoModelForCausalLM.from_pretrained(
@@ -22,6 +21,7 @@ def load_model():
 tokenizer, model = load_model()
 def moderate(user_input, assistant_response):
     chat = [
         {"role": "user", "content": user_input},
@@ -32,11 +32,8 @@ def moderate(user_input, assistant_response):
     prompt_len = input_ids.shape[-1]
     return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)
-def gradio_moderate(user_input, assistant_response):
-    return moderate(user_input, assistant_response)
 iface = gr.Interface(
-    fn=gradio_moderate,
     inputs=[
         gr.Textbox(lines=3, label="User Input"),
         gr.Textbox(lines=3, label="Assistant Response")

 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 def load_model():
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     model = AutoModelForCausalLM.from_pretrained(
 tokenizer, model = load_model()
+@spaces.GPU
 def moderate(user_input, assistant_response):
     chat = [
         {"role": "user", "content": user_input},
     prompt_len = input_ids.shape[-1]
     return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)
 iface = gr.Interface(
+    fn=moderate,
     inputs=[
         gr.Textbox(lines=3, label="User Input"),
         gr.Textbox(lines=3, label="Assistant Response")