Spaces:

justyoung
/

rvc-dataset-maker-test

Sleeping

App Files Files Community

justyoung commited on May 15, 2024

Commit

b55cf8d

verified ·

1 Parent(s): c5ca859

Update app.py

Browse files

Files changed (1) hide show

app.py +85 -92

app.py CHANGED Viewed

@@ -1,12 +1,53 @@
 import gradio as gr
 import yt_dlp
 import ffmpeg
 import subprocess
 import numpy as np
 import librosa
 import soundfile
-#from __future__ import unicode_literals
 class Slicer:
     def __init__(self, sr, threshold=-40., min_length=5000, min_interval=300, hop_size=20, max_sil_kept=5000):
         if not min_length >= min_interval >= hop_size:
@@ -94,102 +135,54 @@ class Slicer:
                 chunks.append(self._apply_slice(waveform, sil_tags[-1][1], total_frames))
             return chunks
-def get_rms(y, frame_length=2048, hop_length=512, pad_mode="constant"):
-    padding = (int(frame_length // 2), int(frame_length // 2))
-    y = np.pad(y, padding, mode=pad_mode)
-    axis = -1
-    out_strides = y.strides + tuple([y.strides[axis]])
-    x_shape_trimmed = list(y.shape)
-    x_shape_trimmed[axis] -= frame_length - 1
-    out_shape = tuple(x_shape_trimmed) + tuple([frame_length])
-    xw = np.lib.stride_tricks.as_strided(y, shape=out_shape, strides=out_strides)
-    if axis < 0:
-        target_axis = axis - 1
-    else:
-        target_axis = axis + 1
-    xw = np.moveaxis(xw, -1, target_axis)
-    slices = [slice(None)] * xw.ndim
-    slices[axis] = slice(0, None, hop_length)
-    x = xw[tuple(slices)]
-    power = np.mean(np.abs(x) ** 2, axis=-2, keepdims=True)
-    return np.sqrt(power)
-def download_audio(dataset, url, drive_path, audio_name):
     if dataset == "Drive":
-        return "Dataset is set to Drive. Skipping download."
     elif dataset == "Youtube":
-        ydl_opts = {
-            'format': 'bestaudio/best',
-            'postprocessors': [{
-                'key': 'FFmpegExtractAudio',
-                'preferredcodec': 'wav',
-            }],
-            "outtmpl": f'/content/youtubeaudio/{audio_name}',
-        }
-        def download_from_url(url):
-            with yt_dlp.YoutubeDL(ydl_opts) as ydl:
-                ydl.download([url])
-        download_from_url(url)
-        return f'Audio downloaded and saved as /content/youtubeaudio/{audio_name}.wav'
-def separate_audio(dataset, audio_name, drive_path):
     if dataset == "Drive":
-        audio_input = drive_path
     elif dataset == "Youtube":
-        audio_input = f"/content/youtubeaudio/{audio_name}.wav"
-    command = f"demucs --two-stems=vocals {audio_input}"
-    result = subprocess.run(command.split(), stdout=subprocess.PIPE)
-    subprocess.run(f"!mkdir -p /content/audio/{audio_name}", shell=True)
-    subprocess.run(f"!cp -r /content/separated/htdemucs/{audio_name}/* /content/audio/{audio_name}", shell=True)
-    if dataset == "Youtube":
-        subprocess.run(f"!cp -r /content/youtubeaudio/{audio_name}.wav /content/audio/{audio_name}", shell=True)
-    return result.stdout.decode()
-def split_audio(audio_name):
-    audio, sr = librosa.load(f'/content/separated/htdemucs/{audio_name}/vocals.wav', sr=None, mono=False)
-    slicer = Slicer(
-        sr=sr,
-        threshold=-40,
-        min_length=5000,
-        min_interval=500,
-        hop_size=10,
-        max_sil_kept=500
     )
-    chunks = slicer.slice(audio)
-    subprocess.run(f"!mkdir -p /content/dataset/{audio_name}", shell=True)
-    for i, chunk in enumerate(chunks):
-        if len(chunk.shape) > 1:
-            chunk = chunk.T
-        soundfile.write(f'/content/dataset/{audio_name}/split_{i}.wav', chunk, sr)
-    subprocess.run(f"!mkdir -p /content/dataset/{audio_name}", shell=True)
-    subprocess.run(f"!cp -r /content/dataset/{audio_name}/* /content/dataset/{audio_name}", shell=True)
-    return "Audio split into chunks and saved."
-def process_audio(mode, dataset, url, drive_path, audio_name):
-    download_result = download_audio(dataset, url, drive_path, audio_name)
-    if "Skipping download" not in download_result:
-        separate_result = separate_audio(dataset, audio_name, drive_path)
-        if mode == "Splitting":
-            split_result = split_audio(audio_name)
-            return f"{download_result}\n{separate_result}\n{split_result}"
-        else:
-            return f"{download_result}\n{separate_result}\nMode is set to Separate. Skipping splitting."
-    else:
-        return download_result
-demo = gr.Interface(
-    fn=process_audio,
-    inputs=[
-        gr.Dropdown(choices=["Splitting", "Separate"], label="Mode"),
-        gr.Dropdown(choices=["Youtube", "Drive"], label="Dataset"),
-        gr.Textbox(label="URL"),
-        gr.Textbox(label="Drive Path"),
-        gr.Textbox(label="Audio Name"),
-    ],
-    outputs="text",
-    title="Dataset Maker",
-    description="Process audio from Youtube or Drive and split it based on silence detection."
-)
 demo.launch()

 import gradio as gr
+#from __future__ import unicode_literals
 import yt_dlp
 import ffmpeg
 import subprocess
 import numpy as np
 import librosa
 import soundfile
+# Function to download audio from YouTube
+def download_audio(url, audio_name):
+    ydl_opts = {
+        'format': 'bestaudio/best',
+        'postprocessors': [{
+            'key': 'FFmpegExtractAudio',
+            'preferredcodec': 'wav',
+        }],
+        "outtmpl": f'youtubeaudio/{audio_name}',
+    }
+    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+        ydl.download([url])
+# Function to separate vocals using demucs
+def separate_vocals(audio_path, audio_name):
+    command = f"demucs --two-stems=vocals {audio_path}"
+    result = subprocess.run(command.split(), stdout=subprocess.PIPE)
+    print(result.stdout.decode())
+    subprocess.run(f"!mkdir -p /content/audio/{audio_name}", shell=True)
+    subprocess.run(f"!cp -r /content/separated/htdemucs/{audio_name}/* /content/audio/{audio_name}", shell=True)
+    subprocess.run(f"!cp -r /content/youtubeaudio/{audio_name}.wav /content/audio/{audio_name}", shell=True)
+# RMS function from librosa
+def get_rms(y, frame_length=2048, hop_length=512, pad_mode="constant"):
+    padding = (int(frame_length // 2), int(frame_length // 2))
+    y = np.pad(y, padding, mode=pad_mode)
+    axis = -1
+    out_strides = y.strides + tuple([y.strides[axis]])
+    x_shape_trimmed = list(y.shape)
+    x_shape_trimmed[axis] -= frame_length - 1
+    out_shape = tuple(x_shape_trimmed) + tuple([frame_length])
+    xw = np.lib.stride_tricks.as_strided(y, shape=out_shape, strides=out_strides)
+    target_axis = axis + 1 if axis >= 0 else axis - 1
+    xw = np.moveaxis(xw, -1, target_axis)
+    slices = [slice(None)] * xw.ndim
+    slices[axis] = slice(0, None, hop_length)
+    x = xw[tuple(slices)]
+    power = np.mean(np.abs(x) ** 2, axis=-2, keepdims=True)
+    return np.sqrt(power)
+# Slicer class to split audio
 class Slicer:
     def __init__(self, sr, threshold=-40., min_length=5000, min_interval=300, hop_size=20, max_sil_kept=5000):
         if not min_length >= min_interval >= hop_size:
                 chunks.append(self._apply_slice(waveform, sil_tags[-1][1], total_frames))
             return chunks
+def process_audio(mode, dataset, url, drive_path, audio_name):
     if dataset == "Drive":
+        print("Dataset is set to Drive. Skipping this section")
     elif dataset == "Youtube":
+        download_audio(url, audio_name)
+    audio_input = f"/content/youtubeaudio/{audio_name}.wav"
     if dataset == "Drive":
+        command = f"demucs --two-stems=vocals {drive_path}"
     elif dataset == "Youtube":
+        command = f"demucs --two-stems=vocals {audio_input}"
+    subprocess.run(command.split(), stdout=subprocess.PIPE)
+    if mode == "Splitting":
+        audio, sr = librosa.load(f'/content/separated/htdemucs/{audio_name}/vocals.wav', sr=None, mono=False)
+        slicer = Slicer(
+            sr=sr,
+            threshold=-40,
+            min_length=5000,
+            min_interval=500,
+            hop_size=10,
+            max_sil_kept=500
+        )
+        chunks = slicer.slice(audio)
+        for i, chunk in enumerate(chunks):
+            if len(chunk.shape) > 1:
+                chunk = chunk.T
+            soundfile.write(f'/content/dataset/{audio_name}/split_{i}.wav', chunk, sr)
+    return f"Processing complete for {audio_name}"
+with gr.Blocks() as demo:
+    with gr.Column():
+        gr.Markdown("# Dataset Maker")
+        mode = gr.Dropdown(choices=["Splitting", "Separate"], label="Mode")
+        dataset = gr.Dropdown(choices=["Youtube", "Drive"], label="Dataset")
+        url = gr.Textbox(label="URL")
+        drive_path = gr.Textbox(label="Drive Path")
+        audio_name = gr.Textbox(label="Audio Name")
+        output = gr.Textbox(label="Output")
+        process_button = gr.Button("Process")
+    process_button.click(
+        process_audio,
+        inputs=[mode, dataset, url, drive_path, audio_name],
+        outputs=[output]
     )
 demo.launch()