Spaces:

daltron
/

GPT_History

Sleeping

App Files Files Community

daltron commited on Aug 17

Commit

44db4cf

verified ·

1 Parent(s): 0388965

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -38

app.py CHANGED Viewed

@@ -10,18 +10,14 @@ from transformers import (
 )
 from openai import OpenAI
-# -------------------------
-# Runtime tuning for small CPU Spaces
-# -------------------------
 try:
     torch.set_num_threads(min(2, os.cpu_count() or 2))
     torch.set_num_interop_threads(1)
 except Exception:
     pass
-# -------------------------
-# Model choices
-# -------------------------
 MODEL_OPTIONS = [
     "GPT-1 (openai-gpt) - local",
     "GPT-2 (gpt2) - local",
@@ -43,7 +39,7 @@ OPENAI_CLIENT = OpenAI(api_key=OPENAI_KEY) if OPENAI_KEY else None
 def get_hf_pipeline(model_id: str):
-    """Create/fetch a lightweight text-generation pipeline for CPU/GPU with cached weights."""
     if model_id in HF_PIPELINES:
         return HF_PIPELINES[model_id]
@@ -53,10 +49,10 @@ def get_hf_pipeline(model_id: str):
     mdl = AutoModelForCausalLM.from_pretrained(
         model_id,
         low_cpu_mem_usage=True,
-        torch_dtype=torch.float32,
     )
-    # Some older models (e.g., GPT-1/2) have no pad token
     if tok.pad_token_id is None and tok.eos_token_id is not None:
         tok.pad_token = tok.eos_token
@@ -66,7 +62,7 @@ def get_hf_pipeline(model_id: str):
 def generate_stream(model_choice, prompt, max_new_tokens, temperature, top_p, seed):
-    """Stream tokens for both HF and OpenAI for faster perceived latency."""
     prompt = (prompt or "").strip()
     if not prompt:
         yield "Please enter a prompt."
@@ -113,7 +109,7 @@ def generate_stream(model_choice, prompt, max_new_tokens, temperature, top_p, se
         if kind == "openai-chat":
             if OPENAI_CLIENT is None:
-                yield "⚠️ To use GPT-3.5, set OPENAI_API_KEY in your Space (Settings → Variables & secrets)."
                 return
             stream = OPENAI_CLIENT.chat.completions.create(
@@ -151,10 +147,10 @@ def maybe_warn(choice):
     return gr.update(visible=False)
-# -------------------------
-# UI
-# -------------------------
-with gr.Blocks(title="Mini GPT Playground") as demo:
     gr.Markdown(
         """
         # Mini GPT Playground
@@ -180,34 +176,16 @@ with gr.Blocks(title="Mini GPT Playground") as demo:
     output = gr.Textbox(lines=12, label="Output")
     model_choice.change(maybe_warn, inputs=[model_choice], outputs=[warn])
     generate_btn.click(
         fn=generate_stream,
         inputs=[model_choice, prompt, max_new_tokens, temperature, top_p, seed],
         outputs=[output],
     )
-# -------------------------
-# Spaces-friendly init
-# -------------------------
-# 1) Expose FastAPI app if running in a Python SDK Space (optional)
-app = None
 try:
-    # If FastAPI is available, we provide an app so Python SDK Spaces can import it.
-    from fastapi import FastAPI
-    app = FastAPI()
-    try:
-        demo = demo.queue(max_size=8)
-    except TypeError:
-        pass
-    app = gr.mount_gradio_app(app, demo, path="/")
-except Exception:
-    app = None  # fine on Gradio SDK Spaces
-# 2) For local runs / Gradio SDK Spaces: DO NOT set server_port; let Gradio pick the env port.
-if __name__ == "__main__":
-    try:
-        demo = demo.queue(max_size=8)
-    except TypeError:
-        pass
-    demo.launch()  # no server_port — avoids port collisions on Spaces

 )
 from openai import OpenAI
+# -------- Runtime tuning for tiny CPU Spaces --------
 try:
     torch.set_num_threads(min(2, os.cpu_count() or 2))
     torch.set_num_interop_threads(1)
 except Exception:
     pass
+# -------- Model choices --------
 MODEL_OPTIONS = [
     "GPT-1 (openai-gpt) - local",
     "GPT-2 (gpt2) - local",
 def get_hf_pipeline(model_id: str):
+    """Create/fetch a text-generation pipeline; cache to avoid reloads."""
     if model_id in HF_PIPELINES:
         return HF_PIPELINES[model_id]
     mdl = AutoModelForCausalLM.from_pretrained(
         model_id,
         low_cpu_mem_usage=True,
+        torch_dtype=torch.float32,  # CPU-safe
     )
+    # Older GPT models lack pad_token; map to EOS
     if tok.pad_token_id is None and tok.eos_token_id is not None:
         tok.pad_token = tok.eos_token
 def generate_stream(model_choice, prompt, max_new_tokens, temperature, top_p, seed):
+    """Stream tokens for both HF and OpenAI to improve perceived latency."""
     prompt = (prompt or "").strip()
     if not prompt:
         yield "Please enter a prompt."
         if kind == "openai-chat":
             if OPENAI_CLIENT is None:
+                yield "⚠️ To use GPT-3.5, set OPENAI_API_KEY in Space (Settings → Variables & secrets)."
                 return
             stream = OPENAI_CLIENT.chat.completions.create(
     return gr.update(visible=False)
+# -------- UI --------
+CSS = ".gradio-container{max-width:960px;margin:0 auto;}"
+with gr.Blocks(title="Mini GPT Playground", css=CSS) as demo:
     gr.Markdown(
         """
         # Mini GPT Playground
     output = gr.Textbox(lines=12, label="Output")
     model_choice.change(maybe_warn, inputs=[model_choice], outputs=[warn])
     generate_btn.click(
         fn=generate_stream,
         inputs=[model_choice, prompt, max_new_tokens, temperature, top_p, seed],
         outputs=[output],
     )
+# -------- Spaces-friendly launch (no custom port) --------
 try:
+    demo = demo.queue(max_size=8)   # keep small on 2 vCPU
+except TypeError:
+    pass
+demo.launch()  # don't pass server_port; Spaces sets it