Spaces:

united-link
/

formosan-f5-tts

Running on Zero

App Files Files Community

txya900619 commited on May 19

Commit

c3d752c

verified ·

1 Parent(s): f357dd6

feat: use speed in infer_process

Browse files

Files changed (1) hide show

app.py +3 -15

app.py CHANGED Viewed

@@ -73,7 +73,7 @@ def infer(
     remove_silence,
     cross_fade_duration=0.15,
     nfe_step=32,
-    fix_duration=1,
     show_info=gr.Info,
 ):
     if not ref_audio_orig:
@@ -96,7 +96,7 @@ def infer(
         vocoder,
         cross_fade_duration=cross_fade_duration,
         nfe_step=nfe_step,
-        fix_duration=fix_duration,
         show_info=show_info,
         progress=gr.Progress(),
     )
@@ -109,7 +109,6 @@ def infer(
             final_wave, _ = torchaudio.load(f.name)
         final_wave = final_wave.squeeze().cpu().numpy()
-    print(f"Final wave duration: {final_wave.shape[0] / final_sample_rate:.2f}s")
     # Save the spectrogram
     with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
         spectrogram_path = tmp_spectrogram.name
@@ -228,17 +227,6 @@ with demo:
         if len(gen_text_input) == 0:
             raise gr.Error("請勿輸入空字串。")
-        ref_audio_info = torchaudio.info(ref_audio_input)
-        ref_duration = ref_audio_info.num_frames / ref_audio_info.sample_rate
-        target_duration = (
-            ref_duration
-            * len(gen_text_input.replace(" ", ""))
-            / len(ref_text_input.replace(" ", ""))
-            / speed_slider
-        )
-        print(f"Reference duration: {ref_duration}")
-        print(f"Target duration: {target_duration}")
         ignore_punctuation = False
         ipa_with_ng = False
@@ -257,7 +245,7 @@ with demo:
             remove_silence,
             cross_fade_duration=cross_fade_duration_slider,
             nfe_step=nfe_slider,
-            fix_duration=ref_duration + target_duration,
         )
         return audio_out, spectrogram_path

     remove_silence,
     cross_fade_duration=0.15,
     nfe_step=32,
+    speed=1,
     show_info=gr.Info,
 ):
     if not ref_audio_orig:
         vocoder,
         cross_fade_duration=cross_fade_duration,
         nfe_step=nfe_step,
+        speed=speed,
         show_info=show_info,
         progress=gr.Progress(),
     )
             final_wave, _ = torchaudio.load(f.name)
         final_wave = final_wave.squeeze().cpu().numpy()
     # Save the spectrogram
     with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
         spectrogram_path = tmp_spectrogram.name
         if len(gen_text_input) == 0:
             raise gr.Error("請勿輸入空字串。")
         ignore_punctuation = False
         ipa_with_ng = False
             remove_silence,
             cross_fade_duration=cross_fade_duration_slider,
             nfe_step=nfe_slider,
+            speed=speed_slider,
         )
         return audio_out, spectrogram_path