Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 12

Commit

6bfef72

verified ·

1 Parent(s): 0a51f5f

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -3

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 import whisper
 import torch
 import os
-from pydub import AudioSegment
 from faster_whisper import WhisperModel  # Import faster-whisper
 # Mapping of model names to Whisper model sizes
@@ -149,8 +149,48 @@ def detect_language(audio_file):
     return f"Detected Language: {detected_language}"
-def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3"):
     """Transcribe the audio file."""
     # Convert audio to 16kHz mono for better compatibility
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
@@ -221,12 +261,17 @@ with gr.Blocks() as demo:
             value="Faster Whisper Large v3",  # Default to "Faster Whisper Large v3"
             interactive=True  # Allow model selection by default
         )
         transcribe_output = gr.Textbox(label="Transcription and Detected Language")
         transcribe_button = gr.Button("Transcribe Audio")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
-    transcribe_button.click(transcribe_audio, inputs=[transcribe_audio_input, language_dropdown, model_dropdown], outputs=transcribe_output)
 # Launch the Gradio interface
 demo.launch()

 import whisper
 import torch
 import os
+from pydub import AudioSegment, silence
 from faster_whisper import WhisperModel  # Import faster-whisper
 # Mapping of model names to Whisper model sizes
     return f"Detected Language: {detected_language}"
+def remove_silence(audio_file, silence_threshold=-40, min_silence_len=500):
+    """
+    Remove silence from the audio file using AI-based silence detection.
+    Args:
+        audio_file (str): Path to the input audio file.
+        silence_threshold (int): Silence threshold in dB. Default is -40 dB.
+        min_silence_len (int): Minimum length of silence to remove in milliseconds. Default is 500 ms.
+    Returns:
+        str: Path to the output audio file with silence removed.
+    """
+    # Load the audio file
+    audio = AudioSegment.from_file(audio_file)
+    # Detect silent chunks
+    silent_chunks = silence.detect_silence(
+        audio,
+        min_silence_len=min_silence_len,
+        silence_thresh=silence_threshold
+    )
+    # Remove silent chunks
+    non_silent_audio = AudioSegment.empty()
+    start = 0
+    for chunk in silent_chunks:
+        non_silent_audio += audio[start:chunk[0]]  # Add non-silent part
+        start = chunk[1]  # Move to the end of the silent chunk
+    non_silent_audio += audio[start:]  # Add the remaining part
+    # Export the processed audio
+    output_path = "silence_removed_audio.wav"
+    non_silent_audio.export(output_path, format="wav")
+    return output_path
+def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3", remove_silence_flag=False):
     """Transcribe the audio file."""
+    # Remove silence if the flag is enabled
+    if remove_silence_flag:
+        audio_file = remove_silence(audio_file)
     # Convert audio to 16kHz mono for better compatibility
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
             value="Faster Whisper Large v3",  # Default to "Faster Whisper Large v3"
             interactive=True  # Allow model selection by default
         )
+        remove_silence_checkbox = gr.Checkbox(label="Remove Silence", value=False)
         transcribe_output = gr.Textbox(label="Transcription and Detected Language")
         transcribe_button = gr.Button("Transcribe Audio")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
+    transcribe_button.click(
+        transcribe_audio,
+        inputs=[transcribe_audio_input, language_dropdown, model_dropdown, remove_silence_checkbox],
+        outputs=transcribe_output
+    )
 # Launch the Gradio interface
 demo.launch()