bedtime-story-batches

Sleeping

ylacombe commited on Aug 2, 2024

Commit

037776c

verified ·

1 Parent(s): fcf0aa2

Correct prompt padding side

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,7 +29,8 @@ model = ParlerTTSForConditionalGeneration.from_pretrained(
 client = InferenceClient()
-tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 SAMPLE_RATE = feature_extractor.sampling_rate
@@ -87,8 +88,8 @@ def generate_base(subject, setting):
     gr.Info("Generating Audio")
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
-    story_tokens = tokenizer(model_input_tokens, return_tensors="pt", padding=True).input_ids.to(device)
-    description_tokens = tokenizer([description for _ in range(len(model_input_tokens))], return_tensors="pt").input_ids.to(device)
     speech_output = model.generate(input_ids=description_tokens, prompt_input_ids=story_tokens)
     speech_output = [output.cpu().numpy() for output in speech_output]
     gr.Info("Generated Audio")

 client = InferenceClient()
+description_tokenizer = AutoTokenizer.from_pretrained(repo_id)
+prompt_tokenizer = AutoTokenizer.from_pretrained(repo_id, padding_side=padding_side)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 SAMPLE_RATE = feature_extractor.sampling_rate
     gr.Info("Generating Audio")
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
+    story_tokens = prompt_tokenizer(model_input_tokens, return_tensors="pt", padding=True).input_ids.to(device)
+    description_tokens = description_tokenizer([description for _ in range(len(model_input_tokens))], return_tensors="pt").input_ids.to(device)
     speech_output = model.generate(input_ids=description_tokens, prompt_input_ids=story_tokens)
     speech_output = [output.cpu().numpy() for output in speech_output]
     gr.Info("Generated Audio")