Text-to-Speech
Vietnamese
vietnamese
female
male
voice-cloning
erax commited on
Commit
ca2c873
·
verified ·
1 Parent(s): bfeabb5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +94 -0
README.md CHANGED
@@ -7,6 +7,14 @@ base_model:
7
  pipeline_tag: text-to-speech
8
  ---
9
 
 
 
 
 
 
 
 
 
10
  * **Provide referrence audio & its transcription:**
11
  <audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/update_213000_ref.wav"></audio>
12
  - Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều
@@ -16,3 +24,89 @@ pipeline_tag: text-to-speech
16
 
17
  <audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/generated_non_ema.wav"></audio>
18
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
  pipeline_tag: text-to-speech
8
  ---
9
 
10
+ <p align="left">
11
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/GsQKdaTyn2FFx_cZvVHk3.png" alt="Logo">
12
+ </p>
13
+
14
+ # EraX-WoW-Turbo: Whisper Large-v3 Turbo for Vietnamese and then some, Supercharged and Localized! 🚀
15
+
16
+ **(A promise fulfilled! MIT License - Absolutely, positively, totally free.)**
17
+
18
  * **Provide referrence audio & its transcription:**
19
  <audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/update_213000_ref.wav"></audio>
20
  - Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều
 
24
 
25
  <audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/generated_non_ema.wav"></audio>
26
 
27
+ Please refer to our ([EraX Smile Github](https://github.com/EraX-JS-Company/EraX-Smile-F5TTS/tree/main)) for codes.
28
+
29
+ You can simple download this repo, clone our Github and then run
30
+ ```python
31
+ import os
32
+ os.environ["CUDA_VISIBLE_DEVICES"] = "0"
33
+
34
+ from vinorm import TTSnorm
35
+ from f5tts_wrapper import F5TTSWrapper
36
+
37
+ # Initialize the F5-TTS wrapper
38
+ tts = F5TTSWrapper(
39
+ vocoder_name="vocos",
40
+ # point to EraX model checkpoint downloaded from HuggingFace
41
+ ckpt_path="path to downloaded EraX checkpoint",
42
+ vocab_file="vocab.txt",
43
+ use_ema=False,
44
+ )
45
+
46
+ ref_text = "Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều"
47
+ ref_text = TTSnorm(ref_text)
48
+
49
+ # Path to reference audio and output directory
50
+ output_dir = "output"
51
+ os.makedirs(output_dir, exist_ok=True)
52
+
53
+ # Preprocess the reference audio just once
54
+ # You can provide a reference text, or leave it blank for auto-transcription
55
+ tts.preprocess_reference(
56
+ ref_audio_path=ref_audio_path,
57
+ ref_text=ref_text, # Leave empty for auto-transcription
58
+ clip_short=True # Clip long audio to ~12 seconds max
59
+ )
60
+
61
+ print(f"Reference audio duration: {tts.get_current_audio_length():.2f} seconds")
62
+
63
+ # Generate from
64
+ text = "Trong khi đó, tại một chung cư trên địa bàn P.Vĩnh Tuy (Q.Hoàng Mai), nhiều người sống trên tầng cao giật mình khi thấy rung lắc mạnh nên đã chạy xuống sảnh tầng 1. Cư dân tại đây cho biết, họ chưa bao giờ cảm thấy ảnh hưởng của động đất mạnh như hôm nay."
65
+ text_norm = TTSnorm(text)
66
+
67
+ # Can do mulriple text. Singe long text more than 12 seconds will be auto-splitted into chunk. Good for streaming though.
68
+
69
+ sentences = [
70
+ gen_text
71
+ ]
72
+
73
+ for i, sentence in enumerate(sentences):
74
+ output_path = os.path.join(output_dir, f"generated_non_ema_{i+1}.wav")
75
+
76
+ sentence_normed = TTSnorm(sentence)
77
+
78
+ # Generate the audio
79
+ tts.generate(
80
+ text=sentence_normed,
81
+ output_path=output_path,
82
+ nfe_step=20, # Number of denoising steps (32)
83
+ cfg_strength=2.0, # Classifier-free guidance strength (2)
84
+ speed=1.0, # Speed of generated speech (1.0)
85
+ cross_fade_duration=0.15, # Cross-fade between chunks (0.15)
86
+ )
87
+
88
+ print(f"Generated: {output_path}")
89
+ ```
90
+
91
+
92
+ The EraX Team is committed to continuously improving our models. Stay tuned for future updates and even more exciting developments!The EraX Team.
93
+
94
+ ## License:
95
+ - **MIT** follows Whisper's license.
96
+
97
+ ## Citation 📝
98
+ <!-- title={EraX-WoW-Tuebo-V1.0: Lắng nghe để Yêu thương.},
99
+ author={Nguyễn Anh Nguyên},
100
+ organization={EraX},
101
+ year={2025},
102
+ url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.0}-->
103
+
104
+ If you find our project useful, we would appreciate it if you could star our repository and cite our work as follows:
105
+ ```
106
+ @article{title={EraX-WoW-Turbo-V1.0: Lắng nghe để Yêu thương.},
107
+ author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
108
+ organization={EraX},
109
+ year={2025},
110
+ url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.0}
111
+ }
112
+ ```