Spaces:

kz919
/

Mini-QwQ

Sleeping

kz919 commited on Jan 9

Commit

6d0db7f

verified ·

1 Parent(s): 5fb8783

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import spaces
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 # Load the model and tokenizer locally
 model_name = "kz919/QwQ-0.5B-Distilled-SFT"
@@ -30,16 +30,27 @@ def respond(message, history: list[tuple[str, str]], system_message, max_tokens,
     # Tokenize the input prompt
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
-    # Generate a response
-    outputs = model.generate(
-        inputs.input_ids,
-        max_length=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        pad_token_id=tokenizer.eos_token_id,
-        streamer = TextStreamer(tokenizer)
     )
-    yield outputs
 # Create the Gradio interface

 import spaces
 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 # Load the model and tokenizer locally
 model_name = "kz919/QwQ-0.5B-Distilled-SFT"
     # Tokenize the input prompt
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    # Use a thread to run the generation in parallel
+    generation_thread = threading.Thread(
+        target=model.generate,
+        kwargs=dict(
+            inputs=inputs.input_ids,
+            max_length=max_tokens,
+            streamer=streamer,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            pad_token_id=tokenizer.eos_token_id,
+        ),
     )
+    generation_thread.start()
+    # Stream the tokens as they are generated
+    for new_text in streamer:
+        yield new_text
 # Create the Gradio interface