Spaces:

Plachta
/

VALL-E-X

Runtime error

App Files Files Community

Plachta commited on Sep 2, 2023

Commit

405566d

1 Parent(s): cf8f15a

Added unconditional generation

Browse files

Files changed (1) hide show

app.py +43 -37

app.py CHANGED Viewed

@@ -180,29 +180,49 @@ def make_npz_prompt(name, uploaded_audio, recorded_audio, transcript_content):
 def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt, transcript_content):
     if len(text) > 150:
         return "Rejected, Text too long (should be less than 150 characters)", None
-    audio_prompt = audio_prompt if audio_prompt is not None else record_audio_prompt
-    sr, wav_pr = audio_prompt
-    if len(wav_pr) / sr > 15:
-        return "Rejected, Audio too long (should be less than 15 seconds)", None
-    if not isinstance(wav_pr, torch.FloatTensor):
-        wav_pr = torch.FloatTensor(wav_pr)
-    if wav_pr.abs().max() > 1:
-        wav_pr /= wav_pr.abs().max()
-    if wav_pr.size(-1) == 2:
-        wav_pr = wav_pr[:, 0]
-    if wav_pr.ndim == 1:
-        wav_pr = wav_pr.unsqueeze(0)
-    assert wav_pr.ndim and wav_pr.size(0) == 1
-    if transcript_content == "":
-        lang_pr, text_pr = transcribe_one(wav_pr, sr)
-        lang_token = lang2token[lang_pr]
-        text_pr = lang_token + text_pr + lang_token
     else:
-        lang_pr = langid.classify(str(transcript_content))[0]
-        text_pr = transcript_content.replace("\n", "")
-        lang_token = lang2token[lang_pr]
-        text_pr = lang_token + text_pr + lang_token
     if language == 'auto-detect':
         lang_token = lang2token[langid.classify(text)[0]]
@@ -212,13 +232,6 @@ def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt,
     text = text.replace("\n", "")
     text = lang_token + text + lang_token
-    if lang_pr not in ['ja', 'zh', 'en']:
-        return f"Reference audio must be a speech of one of model-supported languages, got {lang_pr} instead", None
-    # tokenize audio
-    encoded_frames = tokenize_audio(audio_tokenizer, (wav_pr, sr))
-    audio_prompts = encoded_frames[0][0].transpose(2, 1).to(device)
     # tokenize text
     logging.info(f"synthesize text: {text}")
     phone_tokens, langs = text_tokenizer.tokenize(text=f"_{text}".strip())
@@ -228,14 +241,7 @@ def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt,
         ]
     )
-    enroll_x_lens = None
-    if text_pr:
-        text_prompts, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
-        text_prompts, enroll_x_lens = text_collater(
-            [
-                text_prompts
-            ]
-        )
     text_tokens = torch.cat([text_prompts, text_tokens], dim=-1)
     text_tokens_lens += enroll_x_lens
     lang = lang if accent == "no-accent" else token2lang[langdropdown2token[accent]]

 def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt, transcript_content):
     if len(text) > 150:
         return "Rejected, Text too long (should be less than 150 characters)", None
+    if audio_prompt is None and record_audio_prompt is None:
+        audio_prompts = torch.zeros([1, 0, NUM_QUANTIZERS]).type(torch.int32).to(device)
+        text_prompts = torch.zeros([1, 0]).type(torch.int32)
+        lang_pr = language if language != 'mix' else 'en'
     else:
+        audio_prompt = audio_prompt if audio_prompt is not None else record_audio_prompt
+        sr, wav_pr = audio_prompt
+        if len(wav_pr) / sr > 15:
+            return "Rejected, Audio too long (should be less than 15 seconds)", None
+        if not isinstance(wav_pr, torch.FloatTensor):
+            wav_pr = torch.FloatTensor(wav_pr)
+        if wav_pr.abs().max() > 1:
+            wav_pr /= wav_pr.abs().max()
+        if wav_pr.size(-1) == 2:
+            wav_pr = wav_pr[:, 0]
+        if wav_pr.ndim == 1:
+            wav_pr = wav_pr.unsqueeze(0)
+        assert wav_pr.ndim and wav_pr.size(0) == 1
+        if transcript_content == "":
+            lang_pr, text_pr = transcribe_one(wav_pr, sr)
+            lang_token = lang2token[lang_pr]
+            text_pr = lang_token + text_pr + lang_token
+        else:
+            lang_pr = langid.classify(str(transcript_content))[0]
+            text_pr = transcript_content.replace("\n", "")
+            if lang_pr not in ['ja', 'zh', 'en']:
+                return f"Reference audio must be a speech of one of model-supported languages, got {lang_pr} instead", None
+            lang_token = lang2token[lang_pr]
+            text_pr = lang_token + text_pr + lang_token
+        # tokenize audio
+        encoded_frames = tokenize_audio(audio_tokenizer, (wav_pr, sr))
+        audio_prompts = encoded_frames[0][0].transpose(2, 1).to(device)
+        enroll_x_lens = None
+        if text_pr:
+            text_prompts, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
+            text_prompts, enroll_x_lens = text_collater(
+                [
+                    text_prompts
+                ]
+            )
     if language == 'auto-detect':
         lang_token = lang2token[langid.classify(text)[0]]
     text = text.replace("\n", "")
     text = lang_token + text + lang_token
     # tokenize text
     logging.info(f"synthesize text: {text}")
     phone_tokens, langs = text_tokenizer.tokenize(text=f"_{text}".strip())
         ]
     )
     text_tokens = torch.cat([text_prompts, text_tokens], dim=-1)
     text_tokens_lens += enroll_x_lens
     lang = lang if accent == "no-accent" else token2lang[langdropdown2token[accent]]