Spaces:

jackkie99
/

f5-tts-vn

Running

App Files Files Community

jackkie99 commited on Apr 10

Commit

fd98fad

1 Parent(s): 874c079

update

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -46,22 +46,22 @@ model = load_model(
 @spaces.GPU
 def infer_tts(
-        ref_audio_orig: str, gen_text: str, speed: float = 1.0,
         nfe_steps: float = 64.0, target_rms: float = 0.1,
         cross_fade_duration: float = 0,
         sway_sampling_coef: float = -1,
         request: gr.Request = None
     ):
-    if not ref_audio_orig:
-        raise gr.Error("Please upload a sample audio file.")
     if not gen_text.strip():
         raise gr.Error("Please enter the text content to generate voice.")
     if len(gen_text.split()) > 1000:
         raise gr.Error("Please enter text content with less than 1000 words.")
     try:
-        ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, "")
         final_wave, final_sample_rate, spectrogram = infer_process(
             ref_audio, ref_text.lower(), post_process(TTSnorm(gen_text)).lower(), model, vocoder, speed=speed,
             nfe_steps=nfe_steps, target_rms=target_rms, cross_fade_duration=cross_fade_duration,
@@ -84,8 +84,8 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     """)
     with gr.Row():
-        ref_audio = gr.Audio(label="🔊 Sample Voice", type="filepath")
-        gen_text = gr.Textbox(label="📝 Text", placeholder="Enter the text to generate voice...", lines=3)
     speed = gr.Slider(0.3, 2.0, value=1.0, step=0.1, label="⚡ Speed")
     nfe_steps = gr.Slider(16, 64, value=64, step=16, label="NFE Steps")
@@ -110,7 +110,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     )
     btn_synthesize.click(infer_tts,
-        inputs=[ref_audio, gen_text, speed, nfe_steps, target_rms, cross_fade_duration, sway_sampling_coef],
         outputs=[output_audio, output_spectrogram]
     )

 @spaces.GPU
 def infer_tts(
+        gen_text: str, speed: float = 1.0,
         nfe_steps: float = 64.0, target_rms: float = 0.1,
         cross_fade_duration: float = 0,
         sway_sampling_coef: float = -1,
         request: gr.Request = None
     ):
+    # if not ref_audio_orig:
+    #     raise gr.Error("Please upload a sample audio file.")
     if not gen_text.strip():
         raise gr.Error("Please enter the text content to generate voice.")
     if len(gen_text.split()) > 1000:
         raise gr.Error("Please enter text content with less than 1000 words.")
     try:
+        ref_audio, ref_text = preprocess_ref_audio_text(cached_path("hf://jackkie99/f5-tts-vnese/segment_59.wav"), "")
         final_wave, final_sample_rate, spectrogram = infer_process(
             ref_audio, ref_text.lower(), post_process(TTSnorm(gen_text)).lower(), model, vocoder, speed=speed,
             nfe_steps=nfe_steps, target_rms=target_rms, cross_fade_duration=cross_fade_duration,
     """)
     with gr.Row():
+        # ref_audio = gr.Audio(label="🔊 Sample Voice", type="filepath")
+        gen_text = gr.Textbox(label="📝 Text", placeholder="Nhập văn bản để tổng hợp giọng", lines=3)
     speed = gr.Slider(0.3, 2.0, value=1.0, step=0.1, label="⚡ Speed")
     nfe_steps = gr.Slider(16, 64, value=64, step=16, label="NFE Steps")
     )
     btn_synthesize.click(infer_tts,
+        inputs=[gen_text, speed, nfe_steps, target_rms, cross_fade_duration, sway_sampling_coef],
         outputs=[output_audio, output_spectrogram]
     )