Spaces:

kevalfst
/

visionary-ai

Running

App Files Files Community

kevalfst commited on May 9

Commit

a046610

verified ·

1 Parent(s): 357e4ab

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -30

app.py CHANGED Viewed

@@ -8,18 +8,14 @@ from diffusers import (
 )
 from diffusers.utils import export_to_video, load_image
-# Detect device & dtype
 device = "cuda" if torch.cuda.is_available() else "cpu"
 dtype = torch.float16 if device == "cuda" else torch.float32
-# Factory to load & offload a pipeline
 def make_pipe(cls, model_id, **kwargs):
     pipe = cls.from_pretrained(model_id, torch_dtype=dtype, **kwargs)
-    # Enables CPU offload of model parts not in use
     pipe.enable_model_cpu_offload()
     return pipe
-# Hold pipelines in globals but don’t load yet
 TXT2IMG_PIPE = None
 IMG2IMG_PIPE = None
 TXT2VID_PIPE = None
@@ -52,7 +48,7 @@ def generate_video_from_text(prompt):
             "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"
         ).to(device)
     frames = TXT2VID_PIPE(prompt=prompt, num_frames=12).frames[0]
-    return export_to_video(frames, "wan_video.mp4", fps=8)
 def generate_video_from_image(image):
     global IMG2VID_PIPE
@@ -60,38 +56,38 @@ def generate_video_from_image(image):
         IMG2VID_PIPE = make_pipe(
             StableVideoDiffusionPipeline,
             "stabilityai/stable-video-diffusion-img2vid-xt",
-            variant="fp16" if dtype==torch.float16 else None
         ).to(device)
     image = load_image(image).resize((512, 288))
     frames = IMG2VID_PIPE(image, num_inference_steps=16).frames[0]
-    return export_to_video(frames, "svd_video.mp4", fps=8)
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🧠 Lightweight Any‑to‑Any AI Playground")
     with gr.Tab("Text → Image"):
-        inp = gr.Textbox(label="Prompt")
-        out = gr.Image()
-        btn = gr.Button("Generate")
-        btn.click(generate_image_from_text, inp, out)
     with gr.Tab("Image → Image"):
-        img = gr.Image(label="Input Image")
-        prm = gr.Textbox(label="Edit Prompt")
-        out2 = gr.Image()
-        btn2 = gr.Button("Generate")
-        btn2.click(generate_image_from_image_and_prompt, [img, prm], out2)
     with gr.Tab("Text → Video"):
-        inp2 = gr.Textbox(label="Prompt")
-        out_vid = gr.Video()
-        btn3 = gr.Button("Generate")
-        btn3.click(generate_video_from_text, inp2, out_vid)
     with gr.Tab("Image → Video"):
-        img2 = gr.Image(label="Input Image")
-        out_vid2 = gr.Video()
-        btn4 = gr.Button("Animate")
-        btn4.click(generate_video_from_image, img2, out_vid2)
 demo.launch()

 )
 from diffusers.utils import export_to_video, load_image
 device = "cuda" if torch.cuda.is_available() else "cpu"
 dtype = torch.float16 if device == "cuda" else torch.float32
 def make_pipe(cls, model_id, **kwargs):
     pipe = cls.from_pretrained(model_id, torch_dtype=dtype, **kwargs)
     pipe.enable_model_cpu_offload()
     return pipe
 TXT2IMG_PIPE = None
 IMG2IMG_PIPE = None
 TXT2VID_PIPE = None
             "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"
         ).to(device)
     frames = TXT2VID_PIPE(prompt=prompt, num_frames=12).frames[0]
+    return export_to_video(frames, "/tmp/wan_video.mp4", fps=8)
 def generate_video_from_image(image):
     global IMG2VID_PIPE
         IMG2VID_PIPE = make_pipe(
             StableVideoDiffusionPipeline,
             "stabilityai/stable-video-diffusion-img2vid-xt",
+            variant="fp16" if dtype == torch.float16 else None
         ).to(device)
     image = load_image(image).resize((512, 288))
     frames = IMG2VID_PIPE(image, num_inference_steps=16).frames[0]
+    return export_to_video(frames, "/tmp/svd_video.mp4", fps=8)
+with gr.Blocks() as demo:
+    gr.Markdown("## 🧠 Lightweight Any-to-Any AI Playground")
     with gr.Tab("Text → Image"):
+        text_input = gr.Textbox(label="Prompt")
+        image_output = gr.Image(label="Generated Image")
+        generate_button = gr.Button("Generate")
+        generate_button.click(generate_image_from_text, inputs=text_input, outputs=image_output)
     with gr.Tab("Image → Image"):
+        input_image = gr.Image(label="Input Image")
+        prompt_input = gr.Textbox(label="Edit Prompt")
+        output_image = gr.Image(label="Edited Image")
+        edit_button = gr.Button("Generate")
+        edit_button.click(generate_image_from_image_and_prompt, inputs=[input_image, prompt_input], outputs=output_image)
     with gr.Tab("Text → Video"):
+        video_prompt = gr.Textbox(label="Prompt")
+        video_output = gr.Video(label="Generated Video")
+        video_button = gr.Button("Generate")
+        video_button.click(generate_video_from_text, inputs=video_prompt, outputs=video_output)
     with gr.Tab("Image → Video"):
+        anim_image = gr.Image(label="Input Image")
+        anim_video_output = gr.Video(label="Animated Video")
+        anim_button = gr.Button("Animate")
+        anim_button.click(generate_video_from_image, inputs=anim_image, outputs=anim_video_output)
 demo.launch()