Spaces:

Staticaliza
/

Zero-5

Running on Zero

App Files Files Community

Staticaliza commited on 13 days ago

Commit

234b163

verified ·

1 Parent(s): c251257

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -1

app.py CHANGED Viewed

@@ -34,11 +34,21 @@ def generate(input, language, speaker_audio, emotion_happy, emotion_sad, emotion
     speaker_embedding = None
     if speaker_audio is not None:
         wav, sr = torchaudio.load(speaker_audio)
         speaker_embedding = (model.make_speaker_embedding(wav, sr).to(device, dtype=torch.bfloat16))
     emotion_tensor = torch.tensor([emotion_happy, emotion_sad, emotion_disgust, emotion_fear, emotion_surprise, emotion_anger, emotion_other, emotion_neutral], device=device, dtype=torch.bfloat16)
     vq_tensor = torch.tensor([clarity] * 8, device=device, dtype=torch.bfloat16).unsqueeze(0)
     cond_dict = make_cond_dict(
         text=input,
@@ -52,8 +62,12 @@ def generate(input, language, speaker_audio, emotion_happy, emotion_sad, emotion
         dnsmos_ovrl=float(dnsmos_ovrl),
         device=device,
     )
     conditioning = model.prepare_conditioning(cond_dict)
     codes = model.generate(
         prefix_conditioning=conditioning,
@@ -62,12 +76,20 @@ def generate(input, language, speaker_audio, emotion_happy, emotion_sad, emotion
         batch_size=1,
         sampling_params=dict(min_p=float(min_p)),
     )
     wav_out = model.autoencoder.decode(codes).cpu().detach()
     sr_out = model.autoencoder.sampling_rate
     if wav_out.dim() == 2 and wav_out.size(0) > 1: wav_out = wav_out[0:1, :]
     return (sr_out, wav_out.squeeze().numpy())
 # Initialize

     speaker_embedding = None
     if speaker_audio is not None:
+        print(1)
+        print(speaker_audio)
         wav, sr = torchaudio.load(speaker_audio)
+        print(2)
+        print(wav)
+        print(sr)
         speaker_embedding = (model.make_speaker_embedding(wav, sr).to(device, dtype=torch.bfloat16))
+        print(3)
+        print(speaker_embedding)
     emotion_tensor = torch.tensor([emotion_happy, emotion_sad, emotion_disgust, emotion_fear, emotion_surprise, emotion_anger, emotion_other, emotion_neutral], device=device, dtype=torch.bfloat16)
     vq_tensor = torch.tensor([clarity] * 8, device=device, dtype=torch.bfloat16).unsqueeze(0)
+    print(4)
+    print(emotion_tensor)
+    print(vq_tensor)
     cond_dict = make_cond_dict(
         text=input,
         dnsmos_ovrl=float(dnsmos_ovrl),
         device=device,
     )
+    print(5)
+    print(cond_dict)
     conditioning = model.prepare_conditioning(cond_dict)
+    print(6)
+    print(conditioning)
     codes = model.generate(
         prefix_conditioning=conditioning,
         batch_size=1,
         sampling_params=dict(min_p=float(min_p)),
     )
+    print(7)
+    print(codes)
     wav_out = model.autoencoder.decode(codes).cpu().detach()
     sr_out = model.autoencoder.sampling_rate
+    print(8)
+    print(wav_output)
+    print(sr_output)
     if wav_out.dim() == 2 and wav_out.size(0) > 1: wav_out = wav_out[0:1, :]
+    print(9)
+    print((sr_out, wav_out.squeeze().numpy()))
     return (sr_out, wav_out.squeeze().numpy())
 # Initialize