Seed-VC

Running

App Files Files Community

mengtoa commited on Apr 16

Commit

c54af5e

verified ·

1 Parent(s): 500b392

clip audio between [-1,1]

Browse files

Files changed (1) hide show

app.py +5 -0

app.py CHANGED Viewed

@@ -293,8 +293,10 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
         vc_wave = bigvgan_fn(vc_target.float())[0]
         if processed_frames == 0:
             if is_last_chunk:
                 output_wave = vc_wave[0].cpu().numpy()
                 generated_wave_chunks.append(output_wave)
                 output_wave = (output_wave * 32768.0).astype(np.int16)
                 mp3_bytes = AudioSegment(
                     output_wave.tobytes(), frame_rate=sr,
@@ -306,6 +308,7 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
             generated_wave_chunks.append(output_wave)
             previous_chunk = vc_wave[0, -overlap_wave_len:]
             processed_frames += vc_target.size(2) - overlap_frame_len
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,
@@ -316,6 +319,7 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
             output_wave = crossfade(previous_chunk.cpu().numpy(), vc_wave[0].cpu().numpy(), overlap_wave_len)
             generated_wave_chunks.append(output_wave)
             processed_frames += vc_target.size(2) - overlap_frame_len
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,
@@ -328,6 +332,7 @@ def voice_conversion(source, target, diffusion_steps, length_adjust, inference_c
             generated_wave_chunks.append(output_wave)
             previous_chunk = vc_wave[0, -overlap_wave_len:]
             processed_frames += vc_target.size(2) - overlap_frame_len
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,

         vc_wave = bigvgan_fn(vc_target.float())[0]
         if processed_frames == 0:
             if is_last_chunk:
+                # output_wave = torch.clip(vc_wave[0], -0.999, 0.999).cpu().numpy()
                 output_wave = vc_wave[0].cpu().numpy()
                 generated_wave_chunks.append(output_wave)
+                output_wave = np.clip(output_wave, -0.999, 0.999)
                 output_wave = (output_wave * 32768.0).astype(np.int16)
                 mp3_bytes = AudioSegment(
                     output_wave.tobytes(), frame_rate=sr,
             generated_wave_chunks.append(output_wave)
             previous_chunk = vc_wave[0, -overlap_wave_len:]
             processed_frames += vc_target.size(2) - overlap_frame_len
+            output_wave = np.clip(output_wave, -0.999, 0.999)
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,
             output_wave = crossfade(previous_chunk.cpu().numpy(), vc_wave[0].cpu().numpy(), overlap_wave_len)
             generated_wave_chunks.append(output_wave)
             processed_frames += vc_target.size(2) - overlap_frame_len
+            output_wave = np.clip(output_wave, -0.999, 0.999)
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,
             generated_wave_chunks.append(output_wave)
             previous_chunk = vc_wave[0, -overlap_wave_len:]
             processed_frames += vc_target.size(2) - overlap_frame_len
+            output_wave = np.clip(output_wave, -0.999, 0.999)
             output_wave = (output_wave * 32768.0).astype(np.int16)
             mp3_bytes = AudioSegment(
                 output_wave.tobytes(), frame_rate=sr,