Spaces:

aztro
/

yebama-voice-demo

Sleeping

App Files Files Community

aztro commited on 12 days ago

Commit

3e532f8

verified ·

1 Parent(s): 6bbd5b5

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -32

app.py CHANGED Viewed

@@ -3,41 +3,93 @@ import torch
 import librosa
 import numpy as np
 from huggingface_hub import hf_hub_download
-import zipfile
-import os
-# Descargar el modelo desde tu otra cuenta de Hugging Face
-def load_model():
-    # Descargar archivos del modelo (ajusta los nombres según tu repositorio)
-    model_path = hf_hub_download(repo_id="gitgato/yebama", filename="yebama_e200_s3200.pth")
-    index_path = hf_hub_download(repo_id="gitgato/yebama", filename="IVF403_Flat_nprobe_1_yebama_v2.index")
-    config_path = hf_hub_download(repo_id="gitgato/yebama", filename="config.json")
-    # Aquí iría el código para cargar el modelo RVC (depende de tu implementación)
-    # Ejemplo simplificado:
-    # from rvc_inference import load_rvc_model
-    # model = load_rvc_model(model_path, config_path, index_path)
-    # return model
-def process_audio(audio_file):
-    # Cargar el audio (ejemplo con librosa)
-    audio, sr = librosa.load(audio_file, sr=44100)
-    # Aquí iría la lógica de inferencia con RVC
-    # processed_audio = model.infer(audio)
-    # Simulando un resultado (reemplaza con tu modelo real)
-    processed_audio = audio  # Esto es un placeholder
-    return sr, processed_audio
-# Interfaz Gradio
-iface = gr.Interface(
-    fn=process_audio,
-    inputs=gr.Audio(type="filepath", label="Sube tu audio"),
-    outputs=gr.Audio(label="Audio convertido"),
-    title="Demo de Yebama RVC",
-    description="Convierte tu voz con el modelo Yebama RVC."
-)
-iface.launch()

 import librosa
 import numpy as np
 from huggingface_hub import hf_hub_download
+import soundfile as sf  # Nuevo: Backend alternativo para audio
+# Configuración global
+SAMPLE_RATE = 44100
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# Caché para el modelo (evita descargas múltiples)
+MODEL_CACHE = {}
+def load_rvc_model():
+    """Carga el modelo RVC con sus archivos auxiliares"""
+    try:
+        if not MODEL_CACHE:
+            # Descargar archivos (con caché local)
+            model_files = {
+                "model": hf_hub_download(repo_id="gitgato/yebama", filename="yebama_e200_s3200.pth"),
+                "index": hf_hub_download(repo_id="gitgato/yebama", filename="IVF403_Flat_nprobe_1_yebama_v2.index"),
+                "config": hf_hub_download(repo_id="gitgato/yebama", filename="config.json")
+            }
+            # --- AQUÍ VA TU CÓDIGO DE CARGA RVC REAL ---
+            # Ejemplo hipotético (reemplaza con tu implementación):
+            # from rvc_inference import load_rvc_model
+            # MODEL_CACHE['model'] = load_rvc_model(**model_files, device=DEVICE)
+            # Placeholder para demostración:
+            MODEL_CACHE.update(model_files)
+            print("Modelo descargado (simulado)")
+        return MODEL_CACHE
+    except Exception as e:
+        raise gr.Error(f"Error cargando el modelo: {str(e)}")
+def process_audio(audio_path):
+    """Procesa el audio con el modelo RVC"""
+    try:
+        # 1. Cargar audio (con backend moderno)
+        audio, sr = librosa.load(audio_path, sr=SAMPLE_RATE, mono=True)
+        # 2. Cargar modelo (solo en la primera ejecución)
+        model_data = load_rvc_model()
+        # --- AQUÍ VA TU INFERENCIA RVC REAL ---
+        # Ejemplo hipotético:
+        # processed_audio = model_data['model'].infer(audio)
+        # Placeholder: Eco de demostración
+        processed_audio = np.concatenate([audio, audio * 0.3])  # Simula efecto
+        # 3. Convertir a formato compatible con Gradio (float32)
+        return (SAMPLE_RATE, processed_audio.astype(np.float32))
+    except Exception as e:
+        raise gr.Error(f"Error procesando audio: {str(e)}")
+# Interfaz mejorada
+with gr.Blocks(title="Yebama RVC - Conversión de Voz") as app:
+    gr.Markdown("## 🎤 Yebama RVC - Conversión de Voz")
+    gr.Markdown("Sube un audio para convertirlo con el modelo RVC")
+    with gr.Row():
+        input_audio = gr.Audio(
+            sources=["upload", "microphone"],
+            type="filepath",
+            label="Audio de Entrada",
+            show_download_button=False
+        )
+        output_audio = gr.Audio(
+            label="Resultado",
+            interactive=False,
+            format="wav"
+        )
+    btn = gr.Button("Convertir", variant="primary")
+    btn.click(
+        fn=process_audio,
+        inputs=input_audio,
+        outputs=output_audio
+    )
+    # Sección de debug (opcional)
+    with gr.Accordion("🔍 Debug Info", open=False):
+        gr.JSON(value=lambda: MODEL_CACHE.get('config', {}), label="Config del Modelo")
+# Lanzamiento con configuración óptima
+app.launch(
+    share=True,
+    server_port=7860,
+    show_error=True
+)