Spaces:

KBlueLeaf
/

HDM-demo

Running on Zero

App Files Files Community

Kohaku-Blueleaf commited on 7 days ago

Commit

154b20a

1 Parent(s): d71fa96

use official pipeline

Browse files

Files changed (2) hide show

app.py +81 -187
requirements.txt +7 -2

app.py CHANGED Viewed

@@ -1,28 +1,14 @@
 import os
 import random
-import json
-from pathlib import Path
 from functools import partial
 if os.environ.get("IN_SPACES", None) is not None:
     in_spaces = True
     import spaces
-    os.system(
-        "pip install git+https://${GIT_USER}:${GIT_TOKEN}@github.com/KohakuBlueleaf/XUT"
-    )
 else:
     in_spaces = False
 import gradio as gr
-import httpx
-import numpy as np
 import torch
-import torch.nn as nn
-import torch.nn.functional as F
-from safetensors.torch import load_file
-from PIL import Image
-from tqdm import trange
 try:
     # pre-import triton can avoid diffusers/transformers make import error
@@ -30,18 +16,14 @@ try:
 except ImportError:
     print("Triton not found, skip pre import")
-torch.set_float32_matmul_precision("high")
 ## HDM model dep
 import xut.env
-xut.env.TORCH_COMPILE = False
-xut.env.USE_LIGER = True
-xut.env.USE_XFORMERS = False
-xut.env.USE_XFORMERS_LAYERS = False
-from xut.xut import XUDiT
-from transformers import Qwen3Model, Qwen2Tokenizer
-from diffusers import AutoencoderKL
 ## TIPO
 import kgen.models as kgen_models
@@ -49,15 +31,19 @@ import kgen.executor.tipo as tipo
 from kgen.formatter import apply_format, seperate_tags
 DEFAULT_FORMAT = """
-<|special|>,
-<|characters|>, <|copyrights|>,
-<|artist|>,
-<|quality|>, <|meta|>, <|rating|>,
 <|general|>,
 <|extended|>.
 """.strip()
@@ -73,23 +59,6 @@ def GPU(func=None, duration=None):
         return func
-def download_model(url: str, filepath: str):
-    """Minimal fast download function"""
-    if Path(filepath).exists():
-        print(f"Model already exists at {filepath}")
-        return
-    print(f"Downloading model...")
-    Path(filepath).parent.mkdir(parents=True, exist_ok=True)
-    with httpx.stream("GET", url, follow_redirects=True) as response:
-        response.raise_for_status()
-        with open(filepath, "wb") as f:
-            for chunk in response.iter_bytes(chunk_size=128 * 1024):
-                f.write(chunk)
-    print(f"Download completed: {filepath}")
 def prompt_opt(tags, nl_prompt, aspect_ratio, seed):
     meta, operations, general, nl_prompt = tipo.parse_tipo_request(
         seperate_tags(tags.split(",")),
@@ -103,100 +72,24 @@ def prompt_opt(tags, nl_prompt, aspect_ratio, seed):
     return apply_format(result, DEFAULT_FORMAT).strip().strip(".").strip(",")
-# --- User's core functions (copied directly) ---
-def cfg_wrapper(
-    prompt: str | list[str],
-    neg_prompt: str | list[str],
-    unet: nn.Module,  # should be k_diffusion wrapper
-    te: Qwen3Model,
-    tokenizer: Qwen2Tokenizer,
-    cfg_scale: float = 3.0,
-):
-    prompt_token = {
-        k: v.to(device)
-        for k, v in tokenizer(
-            prompt,
-            padding="longest",
-            return_tensors="pt",
-        ).items()
-    }
-    neg_prompt_token = {
-        k: v.to(device)
-        for k, v in tokenizer(
-            neg_prompt,
-            padding="longest",
-            return_tensors="pt",
-        ).items()
-    }
-    emb = te(**prompt_token).last_hidden_state
-    neg_emb = te(**neg_prompt_token).last_hidden_state
-    def cfg_fn(x, t, cfg=cfg_scale):
-        cond = unet(x, t.expand(x.size(0)), emb).float()
-        uncond = unet(x, t.expand(x.size(0)), neg_emb).float()
-        return uncond + (cond - uncond) * cfg
-    return cfg_fn
 print("Loading models, please wait...")
 device = torch.device("cuda")
 model = (
-    XUDiT(**json.load(open("./config/xut-small-1024-tread.json", "r")))
-    .half()
-    .requires_grad_(False)
-    .eval()
-    .to(device)
-)
-tokenizer = Qwen2Tokenizer.from_pretrained(
-    "Qwen/Qwen3-0.6B",
-)
-te = (
-    Qwen3Model.from_pretrained(
-        "Qwen/Qwen3-0.6B", torch_dtype=torch.float16, attn_implementation="sdpa"
     )
-    .half()
-    .eval()
-    .requires_grad_(False)
     .to(device)
 )
-vae = (
-    AutoencoderKL.from_pretrained("KBlueLeaf/EQ-SDXL-VAE")
-    .half()
-    .eval()
-    .requires_grad_(False)
-    .to(device)
-)
-vae_mean = torch.tensor(vae.config.latents_mean).view(1, -1, 1, 1).to(device)
-vae_std = torch.tensor(vae.config.latents_std).view(1, -1, 1, 1).to(device)
-if not os.path.exists("./model/model.safetensors"):
-    model_file = os.environ.get("MODEL_FILE")
-    os.system(
-        f"hfutils download -t model -r KBlueLeaf/XUT-demo -f {model_file} -o model/model.safetensors"
-    )
-state_dict = load_file("./model/model.safetensors")
-model_sd = {
-    k.replace("unet.", ""): v for k, v in state_dict.items() if k.startswith("unet.")
-}
-model_sd = {k.replace("model.", ""): v for k, v in model_sd.items()}
-missing, unexpected = model.load_state_dict(model_sd, strict=False)
-if missing:
-    print(f"Missing keys: {missing}")
-if unexpected:
-    print(f"Unexpected keys: {unexpected}")
 tipo_model_name, gguf_list = kgen_models.tipo_model_list[0]
 kgen_models.load_model(tipo_model_name, device="cuda")
 print("Models loaded successfully. UI is ready.")
-@GPU(duration=5)
 @torch.no_grad()
 def generate(
     nl_prompt: str,
@@ -210,6 +103,9 @@ def generate(
     size: int,
     aspect_ratio: str,
     fixed_short_edge: bool,
     seed: int,
     progress=gr.Progress(),
 ):
@@ -230,7 +126,6 @@ def generate(
         final_prompt = tag_prompt + "\n" + nl_prompt
     yield None, final_prompt
-    all_pil_images = []
     prompts_to_generate = [final_prompt.replace("\n", " ")] * num_images
     negative_prompts_to_generate = [negative_prompt] * num_images
@@ -246,12 +141,12 @@ def generate(
         w_factor = aspect_ratio**0.5
         h_factor = 1 / w_factor
-    w = int(size * w_factor / 16) * 2
-    h = int(size * h_factor / 16) * 2
     print("=" * 100)
     print(
-        f"Generating {num_images} image(s) with seed: {seed} and resolution {w*8}x{h*8}"
     )
     print("-" * 80)
     print(f"Final prompt: {final_prompt}")
@@ -262,54 +157,26 @@ def generate(
     prompts_batch = prompts_to_generate
     neg_prompts_batch = negative_prompts_to_generate
-    # Core logic from the original script
-    cfg_fn = cfg_wrapper(
         prompts_batch,
         neg_prompts_batch,
-        unet=model,
-        te=te,
-        tokenizer=tokenizer,
         cfg_scale=cfg_scale,
-    )
-    xt = torch.randn(num_images, 4, h, w).to(device)
-    t = 1.0
-    dt = 1.0 / steps
-    with trange(steps, desc="Generating Steps", smoothing=0.05) as cli_prog_bar:
-        for step in progress.tqdm(list(range(steps)), desc="Generating Steps"):
-            with torch.autocast(device.type, dtype=torch.float16):
-                model_pred = cfg_fn(xt, torch.tensor(t, device=device))
-            xt = xt - dt * model_pred.float()
-            t -= dt
-            cli_prog_bar.update(1)
-    generated_latents = xt.float()
-    image_tensors = torch.concat(
-        [
-            vae.decode(
-                (generated_latent[None] * vae_std + vae_mean).half()
-            ).sample.cpu()
-            for generated_latent in generated_latents
-        ]
-    )
-    # Convert tensors to PIL images
-    for image_tensor in image_tensors:
-        image = Image.fromarray(
-            ((image_tensor * 0.5 + 0.5) * 255)
-            .clamp(0, 255)
-            .numpy()
-            .astype(np.uint8)
-            .transpose(1, 2, 0)
-        )
-        all_pil_images.append(image)
-    yield all_pil_images, final_prompt
 # --- Gradio UI Definition ---
 with gr.Blocks(title="HDM Demo", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# HDM Early Demo")
     gr.Markdown(
         "### Enter a natural language prompt and/or specific tags to generate an image."
     )
@@ -318,9 +185,8 @@ with gr.Blocks(title="HDM Demo", theme=gr.themes.Soft()) as demo:
 # HDM: HomeDiffusion Model Project
 HDM is a project to implement a series of generative model that can be pretrained at home.
-## About this Demo
-This DEMO used a checkpoint during training to demostrate the functionality of HDM.
-Not final model yet.
 ## Usage
 This early model used a model trained on anime image set only,
@@ -334,7 +200,7 @@ If you don't want to spent so much effort on prompting, try to keep "Enable TIPO
 If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "Enable Format".
 ## Model Spec
-- Backbone: 342M custom DiT(UViT modified) arch
 - Text Encoder: Qwen3 0.6B (596M)
 - VAE: EQ-SDXL-VAE, an EQ-VAE finetuned sdxl vae.
@@ -359,9 +225,7 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
             neg_prompt_box = gr.Textbox(
                 label="Negative Prompt",
                 value=(
-                    "low quality, worst quality, "
-                    "jpeg artifacts, bad anatomy, old, early, "
-                    "copyright name, watermark"
                 ),
                 lines=3,
             )
@@ -374,18 +238,28 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
                     label="Enable Format",
                     value=True,
                 )
         with gr.Column(scale=1):
             with gr.Row():
                 num_images_slider = gr.Slider(
-                    label="Number of Images", minimum=1, maximum=16, value=1, step=1
                 )
                 steps_slider = gr.Slider(
-                    label="Inference Steps", minimum=1, maximum=64, value=32, step=1
                 )
             with gr.Row():
                 cfg_slider = gr.Slider(
-                    label="CFG Scale", minimum=1.0, maximum=5.0, value=3.0, step=0.1
                 )
                 seed_input = gr.Number(
                     label="Seed",
@@ -394,13 +268,31 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
                     info="Set to -1 for a random seed.",
                 )
             with gr.Row():
                 size_slider = gr.Slider(
                     label="Base Image Size",
-                    minimum=384,
-                    maximum=768,
-                    value=512,
-                    step=64,
                 )
             with gr.Row():
                 aspect_ratio_box = gr.Textbox(
@@ -412,10 +304,9 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
                     value=True,
                 )
-            generate_button = gr.Button("Generate", variant="primary")
     with gr.Row():
         with gr.Column(scale=1):
             output_prompt = gr.TextArea(
                 label="Final Prompt",
                 show_label=True,
@@ -428,7 +319,7 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
                 label="Generated Images",
                 show_label=True,
                 elem_id="gallery",
-                columns=4,
                 rows=3,
                 height="800px",
             )
@@ -447,6 +338,9 @@ If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "E
             size_slider,
             aspect_ratio_box,
             fixed_short_edge,
             seed_input,
         ],
         outputs=[output_gallery, output_prompt],

 import os
 import random
 from functools import partial
 if os.environ.get("IN_SPACES", None) is not None:
     in_spaces = True
     import spaces
 else:
     in_spaces = False
 import gradio as gr
 import torch
 try:
     # pre-import triton can avoid diffusers/transformers make import error
 except ImportError:
     print("Triton not found, skip pre import")
 ## HDM model dep
 import xut.env
+xut.env.TORCH_COMPILE = True
+xut.env.USE_LIGER = False
+xut.env.USE_VANILLA = False
+xut.env.USE_XFORMERS = True
+xut.env.USE_XFORMERS_LAYERS = True
+from hdm.pipeline import HDMXUTPipeline
 ## TIPO
 import kgen.models as kgen_models
 from kgen.formatter import apply_format, seperate_tags
+torch.set_float32_matmul_precision("high")
 DEFAULT_FORMAT = """
+<|special|>,
+<|characters|>, <|copyrights|>,
+<|artist|>,
 <|general|>,
 <|extended|>.
+<|quality|>, <|meta|>, <|rating|>
 """.strip()
         return func
 def prompt_opt(tags, nl_prompt, aspect_ratio, seed):
     meta, operations, general, nl_prompt = tipo.parse_tipo_request(
         seperate_tags(tags.split(",")),
     return apply_format(result, DEFAULT_FORMAT).strip().strip(".").strip(",")
 print("Loading models, please wait...")
 device = torch.device("cuda")
 model = (
+    HDMXUTPipeline.from_pretrained(
+        "KBlueLeaf/HDM-xut-340M-anime",
+        trust_remote_code=True,
     )
+    .to(torch.float16)
     .to(device)
 )
 tipo_model_name, gguf_list = kgen_models.tipo_model_list[0]
 kgen_models.load_model(tipo_model_name, device="cuda")
 print("Models loaded successfully. UI is ready.")
+@GPU(duration=10)
 @torch.no_grad()
 def generate(
     nl_prompt: str,
     size: int,
     aspect_ratio: str,
     fixed_short_edge: bool,
+    zoom: float,
+    x_shift: float,
+    y_shift: float,
     seed: int,
     progress=gr.Progress(),
 ):
         final_prompt = tag_prompt + "\n" + nl_prompt
     yield None, final_prompt
     prompts_to_generate = [final_prompt.replace("\n", " ")] * num_images
     negative_prompts_to_generate = [negative_prompt] * num_images
         w_factor = aspect_ratio**0.5
         h_factor = 1 / w_factor
+    w = int(size * w_factor / 16) * 16
+    h = int(size * h_factor / 16) * 16
     print("=" * 100)
     print(
+        f"Generating {num_images} image(s) with seed: {seed} and resolution {w}x{h}"
     )
     print("-" * 80)
     print(f"Final prompt: {final_prompt}")
     prompts_batch = prompts_to_generate
     neg_prompts_batch = negative_prompts_to_generate
+    images = model(
         prompts_batch,
         neg_prompts_batch,
+        num_inference_steps=steps,
         cfg_scale=cfg_scale,
+        width=w,
+        height=h,
+        camera_param={
+            "zoom": zoom,
+            "x_shift": x_shift,
+            "y_shift": y_shift,
+        }
+    ).images
+    yield images, final_prompt
 # --- Gradio UI Definition ---
 with gr.Blocks(title="HDM Demo", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# HDM Demo")
     gr.Markdown(
         "### Enter a natural language prompt and/or specific tags to generate an image."
     )
 # HDM: HomeDiffusion Model Project
 HDM is a project to implement a series of generative model that can be pretrained at home.
+* Project Source code: https://github.com/KBlueLeaf/HDM
+* Model: https://huggingface.co/KBlueLeaf/HDM-xut-340M-anime
 ## Usage
 This early model used a model trained on anime image set only,
 If you don't want to apply any pre-defined format, unselect "Enable TIPO" and "Enable Format".
 ## Model Spec
+- Backbone: 343M XUT(UViT modified) arch
 - Text Encoder: Qwen3 0.6B (596M)
 - VAE: EQ-SDXL-VAE, an EQ-VAE finetuned sdxl vae.
             neg_prompt_box = gr.Textbox(
                 label="Negative Prompt",
                 value=(
+                    "llow quality, worst quality, text, signature, jpeg artifacts, bad anatomy, old, early, copyright name, watermark, artist name, signature, weibo username, realistic"
                 ),
                 lines=3,
             )
                     label="Enable Format",
                     value=True,
                 )
+            with gr.Row():
+                zoom_slider = gr.Slider(
+                    label="Zoom", minimum=0.5, maximum=2.0, value=1.0, step=0.01
+                )
+                x_shift_slider = gr.Slider(
+                    label="X Shift", minimum=-0.5, maximum=0.5, value=0.0, step=0.01
+                )
+                y_shift_slider = gr.Slider(
+                    label="Y Shift", minimum=-0.5, maximum=0.5, value=0.0, step=0.01
+                )
         with gr.Column(scale=1):
             with gr.Row():
                 num_images_slider = gr.Slider(
+                    label="Number of Images", minimum=1, maximum=4, value=1, step=1
                 )
                 steps_slider = gr.Slider(
+                    label="Inference Steps", minimum=1, maximum=50, value=24, step=1
                 )
             with gr.Row():
                 cfg_slider = gr.Slider(
+                    label="CFG Scale", minimum=1.0, maximum=7.0, value=4.0, step=0.1
                 )
                 seed_input = gr.Number(
                     label="Seed",
                     info="Set to -1 for a random seed.",
                 )
+            with gr.Row():
+                tread_gamma1 = gr.Slider(
+                    label="Tread Gamma 1",
+                    minimum=0.0,
+                    maximum=1.0,
+                    value=0.0,
+                    step=0.05,
+                    interactive=True,
+                )
+                tread_gamma1_slider = gr.Slider(
+                    label="Tread Gamma 2",
+                    minimum=0.0,
+                    maximum=1.0,
+                    value=0.25,
+                    step=0.05,
+                    interactive=True,
+                )
             with gr.Row():
                 size_slider = gr.Slider(
                     label="Base Image Size",
+                    minimum=768,
+                    maximum=1280,
+                    value=1024,
+                    step=16,
                 )
             with gr.Row():
                 aspect_ratio_box = gr.Textbox(
                     value=True,
                 )
     with gr.Row():
         with gr.Column(scale=1):
+            generate_button = gr.Button("Generate", variant="primary")
             output_prompt = gr.TextArea(
                 label="Final Prompt",
                 show_label=True,
                 label="Generated Images",
                 show_label=True,
                 elem_id="gallery",
+                columns=2,
                 rows=3,
                 height="800px",
             )
             size_slider,
             aspect_ratio_box,
             fixed_short_edge,
+            zoom_slider,
+            x_shift_slider,
+            y_shift_slider,
             seed_input,
         ],
         outputs=[output_gallery, output_prompt],

requirements.txt CHANGED Viewed

@@ -1,7 +1,12 @@
 transformers
 diffusers
 tqdm
-torch
 pillow
 tipo-kgen
 safetensors
@@ -11,4 +16,4 @@ httpx
 einops
 hfutils[transfer]
 sentencepiece
-https://github.com/abetlen/llama-cpp-python/releases/download/v0.3.13-cu124/llama_cpp_python-0.3.13-cp310-cp310-linux_x86_64.whl

+--index-url https://download.pytorch.org/whl/cu128
+--extra-index-url https://pypi.org/simple/
+torch
+torchvision
+xformers
+accelerate
 transformers
 diffusers
 tqdm
 pillow
 tipo-kgen
 safetensors
 einops
 hfutils[transfer]
 sentencepiece
+git+https://github.com/KohakuBlueleaf/HDM