Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 25, 2024

Commit

c5c63e9

verified ·

1 Parent(s): a3f47ba

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,7 +32,7 @@ def gpu_decorator(func):
         return func
 device = (
-    "cpu"
     if torch.cuda.is_available()
     else "mps" if torch.backends.mps.is_available() else "cpu"
 )
@@ -92,7 +92,10 @@ F5TTS_model_cfg = dict(
 E2TTS_model_cfg = dict(dim=1024, depth=24, heads=16, ff_mult=4)
 F5TTS_ema_model = load_model(
-    "Gregniuki", "F5-tts_English_German_Polish", "Polish", DiT, F5TTS_model_cfg, 500000
 )
 #E2TTS_ema_model = load_model(
 #    "SWivid", "F5-TTS", "E2TTS_Base", UNetT, E2TTS_model_cfg, 1200000
@@ -129,9 +132,9 @@ def chunk_text(text, max_chars=135):
 @gpu_decorator
 def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress()):
-    if exp_name == "F5-TTS":
         ema_model = F5TTS_ema_model
-    elif exp_name == "E2-TTS":
         ema_model = E2TTS_ema_model
     audio, sr = ref_audio
@@ -390,7 +393,7 @@ with gr.Blocks() as app_tts:
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
     gen_text_input = gr.Textbox(label="Text to Generate", lines=10)
     model_choice = gr.Radio(
-        choices=["F5-TTS"], label="Choose TTS Model", value="F5-TTS"
     )
     generate_btn = gr.Button("Synthesize", variant="primary")
     with gr.Accordion("Advanced Settings", open=False):

         return func
 device = (
+    "gpu"
     if torch.cuda.is_available()
     else "mps" if torch.backends.mps.is_available() else "cpu"
 )
 E2TTS_model_cfg = dict(dim=1024, depth=24, heads=16, ff_mult=4)
 F5TTS_ema_model = load_model(
+    "Gregniuki", "F5-tts_English_German_Polish", "English", DiT, F5TTS_model_cfg, 222600
+)
+E2TTS_ema_model = load_model(
+    "Gregniuki", "F5-tts_English_German_Polish", "Polish2", DiT, F5TTS_model_cfg, 1200000
 )
 #E2TTS_ema_model = load_model(
 #    "SWivid", "F5-TTS", "E2TTS_Base", UNetT, E2TTS_model_cfg, 1200000
 @gpu_decorator
 def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress()):
+    if exp_name == "English":
         ema_model = F5TTS_ema_model
+    elif exp_name == "Polish":
         ema_model = E2TTS_ema_model
     audio, sr = ref_audio
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
     gen_text_input = gr.Textbox(label="Text to Generate", lines=10)
     model_choice = gr.Radio(
+        choices=["English","Polish"], label="Choose TTS Model", value="English"
     )
     generate_btn = gr.Button("Synthesize", variant="primary")
     with gr.Accordion("Advanced Settings", open=False):