Spaces:

Tonic
/

VoxFactory

Running

App Files Files Community

Joseph Pollack commited on Sep 13

Commit

eb0369d

unverified ·

1 Parent(s): 7ca96a1

adds functioning demo space for adapter config and adds model readme

Browse files

Files changed (3) hide show

requirements.txt +8 -4
templates/spaces/demo_voxtral/app.py +59 -23
templates/spaces/demo_voxtral/requirements.txt +4 -0

requirements.txt CHANGED Viewed

@@ -1,15 +1,19 @@
-torch
-triton
 torchvision
-torchaudio
 datasets
 peft
 transformers
 gradio
 gradio[mcp]
 trackio
 huggingface_hub
 soundfile
 librosa
 mistral-common
-torchcodec

+# PyTorch 2.8 ecosystem with CUDA support (required for TorchCodec 0.7)
+torch==2.8.0
 torchvision
+torchaudio==2.8.0
+triton
+torchcodec==0.7
+# Core ML libraries
 datasets
 peft
 transformers
+# UI and deployment
 gradio
 gradio[mcp]
 trackio
 huggingface_hub
+# Audio processing
 soundfile
 librosa
 mistral-common

templates/spaces/demo_voxtral/app.py CHANGED Viewed

@@ -2,41 +2,77 @@ import os
 import gradio as gr
 import torch
 from transformers import AutoProcessor
 try:
     from transformers import VoxtralForConditionalGeneration as VoxtralModelClass
 except Exception:
-    # Fallback for older transformers versions
-    from transformers import AutoModelForSeq2SeqLM as VoxtralModelClass
 HF_MODEL_ID = os.getenv("HF_MODEL_ID", "mistralai/Voxtral-Mini-3B-2507")
 MODEL_NAME = os.getenv("MODEL_NAME", HF_MODEL_ID.split("/")[-1])
 HF_USERNAME = os.getenv("HF_USERNAME", "")
 MODEL_SUBFOLDER = os.getenv("MODEL_SUBFOLDER", "").strip()
-try:
-    processor = AutoProcessor.from_pretrained(HF_MODEL_ID)
-except Exception:
-    # Fallback: some repos may store processor files inside the subfolder
-    if MODEL_SUBFOLDER:
-        processor = AutoProcessor.from_pretrained(HF_MODEL_ID, subfolder=MODEL_SUBFOLDER)
-    else:
-        raise
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Use float32 on CPU; bfloat16 on CUDA if available
-if torch.cuda.is_available():
-    model_kwargs = {"device_map": "auto", "torch_dtype": torch.bfloat16}
-else:
-    model_kwargs = {"torch_dtype": torch.float32}
-if MODEL_SUBFOLDER:
-    model = VoxtralModelClass.from_pretrained(
-        HF_MODEL_ID, subfolder=MODEL_SUBFOLDER, **model_kwargs
-    )
-else:
-    model = VoxtralModelClass.from_pretrained(
-        HF_MODEL_ID, **model_kwargs
-    )
 # Simple language options (with Auto detection)
 LANGUAGES = {

 import gradio as gr
 import torch
 from transformers import AutoProcessor
+try:
+    from transformers import AutoConfig
+except Exception:
+    AutoConfig = None
 try:
     from transformers import VoxtralForConditionalGeneration as VoxtralModelClass
 except Exception:
+    # Fallback for older transformers versions: prefer causal LM over seq2seq
+    from transformers import AutoModelForCausalLM as VoxtralModelClass
+try:
+    from peft import PeftModel, PeftConfig
+except Exception:
+    PeftModel = None
+    PeftConfig = None
 HF_MODEL_ID = os.getenv("HF_MODEL_ID", "mistralai/Voxtral-Mini-3B-2507")
+BASE_MODEL_ID = os.getenv("BASE_MODEL_ID", "mistralai/Voxtral-Mini-3B-2507")
 MODEL_NAME = os.getenv("MODEL_NAME", HF_MODEL_ID.split("/")[-1])
 HF_USERNAME = os.getenv("HF_USERNAME", "")
 MODEL_SUBFOLDER = os.getenv("MODEL_SUBFOLDER", "").strip()
+def _load_processor():
+    try:
+        return AutoProcessor.from_pretrained(HF_MODEL_ID)
+    except Exception:
+        # Fallback: some repos may store processor files inside the subfolder
+        if MODEL_SUBFOLDER:
+            try:
+                return AutoProcessor.from_pretrained(HF_MODEL_ID, subfolder=MODEL_SUBFOLDER)
+            except Exception:
+                pass
+        # Final fallback to base model's processor
+        return AutoProcessor.from_pretrained(BASE_MODEL_ID)
+processor = _load_processor()
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # Use float32 on CPU; bfloat16 on CUDA if available
+dtype = torch.bfloat16 if device == "cuda" else torch.float32
+model_kwargs = {"device_map": "auto"} if device == "cuda" else {}
+def _from_pretrained_with_dtype(model_cls, model_id, **kwargs):
+    # Prefer new `dtype` kw; fall back to legacy `torch_dtype` if needed
+    try:
+        return model_cls.from_pretrained(model_id, dtype=dtype, **kwargs)
+    except TypeError:
+        return model_cls.from_pretrained(model_id, torch_dtype=dtype, **kwargs)
+model = None
+base_model = None
+# Prefer PEFT adapter-over-base path first, independent of adapter detection
+if PeftModel is not None:
+    try:
+        base_model = _from_pretrained_with_dtype(VoxtralModelClass, BASE_MODEL_ID, **model_kwargs)
+        if MODEL_SUBFOLDER:
+            model = PeftModel.from_pretrained(base_model, HF_MODEL_ID, subfolder=MODEL_SUBFOLDER)
+        else:
+            model = PeftModel.from_pretrained(base_model, HF_MODEL_ID)
+        model = model.to(dtype=dtype)
+    except Exception:
+        model = None
+# If PEFT path failed or PEFT is unavailable, fall back to the base model only
+if model is None:
+    if base_model is None:
+        base_model = _from_pretrained_with_dtype(VoxtralModelClass, BASE_MODEL_ID, **model_kwargs)
+    model = base_model
 # Simple language options (with Auto detection)
 LANGUAGES = {

templates/spaces/demo_voxtral/requirements.txt CHANGED Viewed

@@ -5,3 +5,7 @@ datasets
 soundfile
 librosa
 mistral-common

 soundfile
 librosa
 mistral-common
+peft
+huggingface_hub
+accelerate
+safetensors