Spaces:

Segizu
/

Clona_voz

Runtime error

App Files Files Community

Segizu commited on Mar 10

Commit

1b26ed9

1 Parent(s): e7fa129

sin docker

Browse files

Files changed (2) hide show

app.py +64 -0
requiremens.txt +7 -0

app.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import gradio as gr
+import spaces
+import torch
+import numpy as np
+# Demostración del uso de CUDA
+zero = torch.Tensor([0]).cuda()
+print("Fuera de la función, zero.device:", zero.device)  # Muestra 'cpu' fuera de GPU
+# Importar los módulos del clonador de voz
+# Estos módulos provienen del repositorio Real-Time-Voice-Cloning, que debes tener instalado.
+from encoder import inference as encoder
+from synthesizer.inference import Synthesizer
+from vocoder import inference as vocoder
+# Cargar los modelos pre-entrenados (modifica las rutas según corresponda)
+encoder_model_path = "encoder/saved_models/pretrained.pt"
+synthesizer_model_path = "synthesizer/saved_models/pretrained/pretrained.pt"
+vocoder_model_path = "vocoder/saved_models/pretrained/pretrained.pt"
+encoder.load_model(encoder_model_path)
+synthesizer = Synthesizer(synthesizer_model_path)
+vocoder.load_model(vocoder_model_path)
+@spaces.GPU
+def clone_voice(reference_audio, text):
+    # Dentro de la función, el contexto GPU está activo
+    print("Dentro de la función, zero.device:", zero.device)
+    # Se espera que reference_audio sea una tupla (sample_rate, np.array) proveniente de gr.Audio
+    sample_rate, audio = reference_audio
+    # Preprocesar el audio para obtener el wav adecuado para el encoder
+    preprocessed_wav = encoder.preprocess_wav(audio)
+    # Extraer la embedding del hablante a partir del audio de referencia
+    embed = encoder.embed_utterance(preprocessed_wav)
+    # Sintetizar el espectrograma a partir del texto y de la embedding extraída
+    specs = synthesizer.synthesize_spectrograms([text], [embed])
+    # Generar la onda de audio a partir del espectrograma con el vocoder
+    generated_wav = vocoder.infer_waveform(specs[0])
+    # Opcional: agregar padding al audio generado (esto puede ayudar a evitar clics o truncamientos)
+    generated_wav = np.pad(generated_wav, (0, synthesizer.sample_rate), mode="constant")
+    # Retornar la onda de audio generada junto con la tasa de muestreo
+    return (synthesizer.sample_rate, generated_wav)
+# Configuración de la interfaz de Gradio:
+# - Entrada 1: Audio (voz de referencia) a subir.
+# - Entrada 2: Texto que se desea sintetizar con la voz clonada.
+# - Salida: Audio resultante.
+demo = gr.Interface(
+    fn=clone_voice,
+    inputs=[
+        gr.Audio(source="upload", type="numpy", label="Voz de Referencia"),
+        gr.Textbox(label="Texto a Clonar")
+    ],
+    outputs=gr.Audio(label="Voz Clonada")
+)
+demo.launch()

requiremens.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+gradio
+spaces
+torch
+numpy
+encoder
+synthesizer.inference
+vocoder