mesolitica
/

malay-parler-tts-mini-v1

Text Generation

text2text-generation

Model card Files Files and versions

huseinzol05 commited on Feb 3

Commit

fd2bacd

·

verified ·

1 Parent(s): ad41c5f

Update README.md

Files changed (1) hide show

README.md +21 -6

README.md CHANGED Viewed

@@ -1,17 +1,26 @@
 ---
 library_name: transformers
-tags: []
 ---
 # Malay Parler TTS Mini V1
-Finetuned https://huggingface.co/parler-tts/parler-tts-mini-v1 on Malay TTS dataset https://huggingface.co/datasets/mesolitica/tts-combine-annotated
 Source code at https://github.com/mesolitica/malaya-speech/tree/master/session/parler-tts
 Wandb at https://wandb.ai/huseinzol05/parler-speech?nw=nwuserhuseinzol05
-## how-to
 ```python
 import torch
@@ -40,10 +49,16 @@ prompt = 'Husein zolkepli sangat comel dan kacak suka makan cendol'
 for s in speakers:
     description = f"{s}'s voice, delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
-    input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-    prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-    generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
     audio_arr = generation.cpu()
     sf.write(f'{s}.mp3', audio_arr.numpy().squeeze(), 44100)
 ```

 ---
 library_name: transformers
+datasets:
+- mesolitica/tts-combine-annotated
+language:
+- ms
 ---
 # Malay Parler TTS Mini V1
+Finetuned https://huggingface.co/parler-tts/parler-tts-mini-v1 on [Malay TTS dataset](https://huggingface.co/datasets/mesolitica/tts-combine-annotated)
 Source code at https://github.com/mesolitica/malaya-speech/tree/master/session/parler-tts
 Wandb at https://wandb.ai/huseinzol05/parler-speech?nw=nwuserhuseinzol05
+## requirements
+```bash
+pip3 install git+https://github.com/mesolitica/async-parler-tts
+```
+## how to
 ```python
 import torch
 for s in speakers:
     description = f"{s}'s voice, delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
+    input_ids = tokenizer(description, return_tensors="pt").to(device)
+    prompt_input_ids = tokenizer(prompt, return_tensors="pt").to(device)
+    generation = model.generate(
+      input_ids=input_ids.input_ids,
+      attention_mask=input_ids.attention_mask,
+      prompt_input_ids=prompt_input_ids.input_ids,
+      prompt_attention_mask=prompt_input_ids.attention_mask,
+    )
     audio_arr = generation.cpu()
     sf.write(f'{s}.mp3', audio_arr.numpy().squeeze(), 44100)
 ```