Spaces:

1inkusFace
/

SkyReels

Build error

App Files Files Community

1inkusFace commited on Mar 6

Commit

58cc987

verified ·

1 Parent(s): b5ba988

Update app.py

Browse files

Files changed (1) hide show

app.py +171 -15

app.py CHANGED Viewed

@@ -6,17 +6,16 @@ import time
 import os
 import random
 import subprocess
-subprocess.run(['sh', './sky.sh'])
 sys.path.append("./SkyReels-V1")
 from skyreelsinfer import TaskType
 from skyreelsinfer.offload import OffloadConfig
-from skyreelsinfer.skyreels_video_infer import Predictor
 from diffusers.utils import export_to_video
-from diffusers.utils import load_image
-task_type = None
 import torch
@@ -32,15 +31,169 @@ torch.set_float32_matmul_precision("highest")
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-import spaces
 _predictor = None  # Global variable to hold the predictor
 @spaces.GPU(duration=90)  # We DO need @spaces.GPU on init_predictor
 def init_predictor():
     global _predictor
-    import logging
-    logger = logging.getLogger(__name__) #Logger
     if _predictor is None:
         _predictor = SkyReelsVideoSingleGpuInfer(
@@ -61,9 +214,11 @@ def init_predictor():
-@spaces.GPU(duration=90)
 def generate_video(prompt, seed, image=None):
     global task_type
     print(f"image:{type(image)}")
     if seed == -1:
         random.seed(time.time())
@@ -81,19 +236,20 @@ def generate_video(prompt, seed, image=None):
         "cfg_for": False,
     }
     assert image is not None, "please input image"
-    kwargs["image"] = load_image(image=image)
-    global _predictor
     if _predictor is None:
-      init_predictor()
-    output = predictor.infer(**kwargs)
     save_dir = f"./result/{task_type}"
     os.makedirs(save_dir, exist_ok=True)
     video_out_file = f"{save_dir}/{prompt[:100].replace('/','')}_{seed}.mp4"
     print(f"generate video, local path: {video_out_file}")
     export_to_video(output, video_out_file, fps=24)
-    return video_out_file, kwargs
 def create_gradio_interface():
         with gr.Blocks() as demo:
@@ -113,4 +269,4 @@ def create_gradio_interface():
 if __name__ == "__main__":
     demo = create_gradio_interface()
-    demo.launch()

 import os
 import random
 import subprocess
+from PIL import Image  # Import PIL.Image
+# subprocess.run(['sh', './sky.sh'])  # Keep this if needed for setup
 sys.path.append("./SkyReels-V1")
 from skyreelsinfer import TaskType
 from skyreelsinfer.offload import OffloadConfig
+# from skyreelsinfer.skyreels_video_infer import Predictor  # Correct: No Predictor import.
 from diffusers.utils import export_to_video
+# from diffusers.utils import load_image  # Removed: Use PIL directly
 import torch
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+import logging  # Correct: Keep logging
+# --- Dummy Classes (Keep these for standalone execution) ---
+class OffloadConfig:
+    def __init__(self, high_cpu_memory=False, parameters_level=False, compiler_transformer=False, compiler_cache=""):
+        self.high_cpu_memory = high_cpu_memory
+        self.parameters_level = parameters_level
+        self.compiler_transformer = compiler_transformer
+        self.compiler_cache = compiler_cache
+class TaskType:
+    T2V = 0
+    I2V = 1
+class LlamaModel:
+    @staticmethod
+    def from_pretrained(*args, **kwargs):
+        return LlamaModel()
+    def to(self, device):
+        return self
+class HunyuanVideoTransformer3DModel:
+    @staticmethod
+    def from_pretrained(*args, **kwargs):
+        return HunyuanVideoTransformer3DModel()
+    def to(self, device):
+        return self
+class SkyreelsVideoPipeline:
+    @staticmethod
+    def from_pretrained(*args, **kwargs):
+        return SkyreelsVideoPipeline()
+    def to(self, device):
+        return self
+    def __call__(self, *args, **kwargs):
+        frames = [torch.randn(1, 3, 512, 512)]  # Dummy frames
+        return type('obj', (object,), {'frames' : frames})()
+    class vae:
+        @staticmethod
+        def enable_tiling():
+          return
+def quantize_(*args, **kwargs):
+    return
+def float8_weight_only():
+    return
+# --- End of Dummy Classes/Functions ---
+logger = logging.getLogger(__name__)
+class SkyReelsVideoSingleGpuInfer:  # No more multiprocessing!
+    def __init__(
+        self,
+        task_type: TaskType,
+        model_id: str,
+        quant_model: bool = True,
+        is_offload: bool = True,
+        offload_config: OffloadConfig = OffloadConfig(),
+        enable_cfg_parallel: bool = True,  # Remove world_size, local_rank
+    ):
+        self.task_type = task_type
+        self.model_id = model_id
+        self.quant_model = quant_model
+        self.is_offload = is_offload
+        self.offload_config = offload_config
+        self.enable_cfg_parallel = enable_cfg_parallel  # Keep this
+        self.pipe = None
+        self.is_initialized = False
+        self.gpu_device = None
+    def _load_model(self, model_id: str, base_model_id: str = "hunyuanvideo-community/HunyuanVideo", quant_model: bool = True):
+        logger.info(f"load model model_id:{model_id} quan_model:{quant_model}")
+        text_encoder = LlamaModel.from_pretrained(
+            base_model_id, subfolder="text_encoder", torch_dtype=torch.bfloat16
+        ).to("cpu")
+        transformer = HunyuanVideoTransformer3DModel.from_pretrained(
+            model_id, torch_dtype=torch.bfloat16, device="cpu"
+        ).to("cpu")
+        if quant_model:
+            quantize_(text_encoder, float8_weight_only())
+            text_encoder.to("cpu")
+            torch.cuda.empty_cache()
+            quantize_(transformer, float8_weight_only())
+            transformer.to("cpu")
+            torch.cuda.empty_cache()
+        pipe = SkyreelsVideoPipeline.from_pretrained(
+            base_model_id, transformer=transformer, text_encoder=text_encoder, torch_dtype=torch.bfloat16
+        ).to("cpu")
+        pipe.vae.enable_tiling()
+        torch.cuda.empty_cache()
+        return pipe
+    def initialize(self):
+        """Initializes the model and moves it to the GPU."""
+        if self.is_initialized:
+            return
+        if not torch.cuda.is_available():
+            raise RuntimeError("CUDA is not available. Cannot initialize model.")
+        self.gpu_device = "cuda:0"  # Always cuda:0 in single-GPU case
+        self.pipe = self._load_model(model_id=self.model_id, quant_model=self.quant_model)
+        # Simplified: No need for max_batch_dim_size with single GPU
+        if self.is_offload:
+            pass
+        else:
+            self.pipe.to(self.gpu_device)
+        if self.offload_config.compiler_transformer:
+            torch._dynamo.config.suppress_errors = True
+            os.environ["TORCHINDUCTOR_FX_GRAPH_CACHE"] = "1"
+            # No world_size in cache directory name
+            os.environ["TORCHINDUCTOR_CACHE_DIR"] = f"{self.offload_config.compiler_cache}"
+            self.pipe.transformer = torch.compile(
+                self.pipe.transformer, mode="max-autotune-no-cudagraphs", dynamic=True
+            )
+            if self.offload_config.compiler_transformer:  # Only warm up if compiling
+                self.warm_up()
+        self.is_initialized = True
+    def warm_up(self):
+      if not self.is_initialized:
+          raise RuntimeError("Model must be initialized before warm-up.")
+      init_kwargs = {
+            "prompt": "A woman is dancing in a room",
+            "height": 544,
+            "width": 960,
+            "guidance_scale": 6,
+            "num_inference_steps": 1,
+            "negative_prompt": "bad quality",
+            "num_frames": 16,
+            "generator": torch.Generator(self.gpu_device).manual_seed(42),
+            "embedded_guidance_scale": 1.0,
+        }
+      if self.task_type == TaskType.I2V:
+        init_kwargs["image"] = Image.new("RGB", (544,960), color="black") #Dummy
+      self.pipe(**init_kwargs)
+      logger.info("Warm-up complete.")
+    def infer(self, **kwargs):
+        """Handles inference requests."""
+        if not self.is_initialized:
+          self.initialize()
+        if "seed" in kwargs:
+            kwargs["generator"] = torch.Generator(self.gpu_device).manual_seed(kwargs["seed"])
+            del kwargs["seed"]
+        assert (self.task_type == TaskType.I2V and "image" in kwargs) or self.task_type == TaskType.T2V
+        result = self.pipe(**kwargs).frames[0]
+        return result
+# --- Spaces Integration ---
 _predictor = None  # Global variable to hold the predictor
 @spaces.GPU(duration=90)  # We DO need @spaces.GPU on init_predictor
 def init_predictor():
     global _predictor
+    logger = logging.getLogger(__name__)  # Correct: Logger inside function
     if _predictor is None:
         _predictor = SkyReelsVideoSingleGpuInfer(
+@spaces.GPU(duration=90) # Now needed, because we write files.
 def generate_video(prompt, seed, image=None):
     global task_type
+    global _predictor  # Correct: Access global _predictor
     print(f"image:{type(image)}")
     if seed == -1:
         random.seed(time.time())
         "cfg_for": False,
     }
     assert image is not None, "please input image"
+    # kwargs["image"] = load_image(image=image)  # Removed: load image directly with PIL
+    kwargs["image"] = Image.open(image) # Use PIL.Image.open
     if _predictor is None:
+        init_predictor()
+    output = _predictor.infer(**kwargs)  # Correct: Use _predictor
     save_dir = f"./result/{task_type}"
     os.makedirs(save_dir, exist_ok=True)
     video_out_file = f"{save_dir}/{prompt[:100].replace('/','')}_{seed}.mp4"
     print(f"generate video, local path: {video_out_file}")
     export_to_video(output, video_out_file, fps=24)
+    return video_out_file, kwargs  # Correct: Return filename, kwargs
 def create_gradio_interface():
         with gr.Blocks() as demo:
 if __name__ == "__main__":
     demo = create_gradio_interface()
+    demo.queue().launch() # Add queue for async