Spaces:

panga12345
/

uhtest

Sleeping

panga12345 commited on Feb 1

Commit

b57fea6

verified ·

1 Parent(s): ba78b2f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,10 @@
 import gradio as gr
-from llama_cpp import Llama
-# Load the model
-llm = Llama.from_pretrained(
-    repo_id="mradermacher/Fimbulvetr-11B-v2-GGUF",
-    filename="Fimbulvetr-11B-v2.IQ3_M.gguf",
-)
 def respond(
     message,
@@ -15,36 +14,25 @@ def respond(
     temperature,
     top_p,
 ):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    # Generate response using llama_cpp
-    response = ""
-    stream = llm(
-        messages=messages,
-        max_tokens=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        stream=True
-    )
-    for output in stream:
-        token = output["choices"][0]["text"]
-        response += token
-        yield response
-# Create Gradio ChatInterface
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(

 import gradio as gr
+from transformers import AutoModel, AutoTokenizer
+import torch
+# Load model and tokenizer
+tokenizer = AutoTokenizer.from_pretrained("mradermacher/Fimbulvetr-11B-v2-GGUF")
+model = AutoModel.from_pretrained("mradermacher/Fimbulvetr-11B-v2-GGUF")
 def respond(
     message,
     temperature,
     top_p,
 ):
+    messages = system_message + "\n" + "\n".join([f"User: {h[0]}\nBot: {h[1]}" for h in history if h]) + f"\nUser: {message}"
+    inputs = tokenizer(messages, return_tensors="pt", truncation=True)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            temperature=temperature,
+            top_p=top_p,
+            do_sample=True
+        )
+    response = tokenizer.decode(output[0], skip_special_tokens=True)
+    yield response
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
+        gr.Textbox(value="You are a friendly storyteller.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(