Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 12

Commit

dff986d

verified ·

1 Parent(s): 6bfef72

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -7

app.py CHANGED Viewed

@@ -185,12 +185,8 @@ def remove_silence(audio_file, silence_threshold=-40, min_silence_len=500):
     return output_path
-def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3", remove_silence_flag=False):
     """Transcribe the audio file."""
-    # Remove silence if the flag is enabled
-    if remove_silence_flag:
-        audio_file = remove_silence(audio_file)
     # Convert audio to 16kHz mono for better compatibility
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
@@ -261,17 +257,37 @@ with gr.Blocks() as demo:
             value="Faster Whisper Large v3",  # Default to "Faster Whisper Large v3"
             interactive=True  # Allow model selection by default
         )
-        remove_silence_checkbox = gr.Checkbox(label="Remove Silence", value=False)
         transcribe_output = gr.Textbox(label="Transcription and Detected Language")
         transcribe_button = gr.Button("Transcribe Audio")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
     transcribe_button.click(
         transcribe_audio,
-        inputs=[transcribe_audio_input, language_dropdown, model_dropdown, remove_silence_checkbox],
         outputs=transcribe_output
     )
 # Launch the Gradio interface
 demo.launch()

     return output_path
+def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3"):
     """Transcribe the audio file."""
     # Convert audio to 16kHz mono for better compatibility
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
             value="Faster Whisper Large v3",  # Default to "Faster Whisper Large v3"
             interactive=True  # Allow model selection by default
         )
         transcribe_output = gr.Textbox(label="Transcription and Detected Language")
         transcribe_button = gr.Button("Transcribe Audio")
+    with gr.Tab("Remove Silence"):
+        gr.Markdown("Upload an audio file to remove silence.")
+        silence_audio_input = gr.Audio(type="filepath", label="Upload Audio File")
+        silence_threshold_slider = gr.Slider(
+            minimum=-60, maximum=-20, value=-40, step=1,
+            label="Silence Threshold (dB)",
+            info="Lower values detect quieter sounds as silence."
+        )
+        min_silence_len_slider = gr.Slider(
+            minimum=100, maximum=2000, value=500, step=100,
+            label="Minimum Silence Length (ms)",
+            info="Minimum duration of silence to remove."
+        )
+        silence_output = gr.Audio(label="Processed Audio (Silence Removed)", type="filepath")
+        silence_button = gr.Button("Remove Silence")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
     transcribe_button.click(
         transcribe_audio,
+        inputs=[transcribe_audio_input, language_dropdown, model_dropdown],
         outputs=transcribe_output
     )
+    silence_button.click(
+        remove_silence,
+        inputs=[silence_audio_input, silence_threshold_slider, min_silence_len_slider],
+        outputs=silence_output
+    )
 # Launch the Gradio interface
 demo.launch()