Update README.md
Browse files
README.md
CHANGED
@@ -7,6 +7,14 @@ base_model:
|
|
7 |
pipeline_tag: text-to-speech
|
8 |
---
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
* **Provide referrence audio & its transcription:**
|
11 |
<audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/update_213000_ref.wav"></audio>
|
12 |
- Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều
|
@@ -16,3 +24,89 @@ pipeline_tag: text-to-speech
|
|
16 |
|
17 |
<audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/generated_non_ema.wav"></audio>
|
18 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
pipeline_tag: text-to-speech
|
8 |
---
|
9 |
|
10 |
+
<p align="left">
|
11 |
+
<img src="https://cdn-uploads.huggingface.co/production/uploads/63d8d8879dfcfa941d4d7cd9/GsQKdaTyn2FFx_cZvVHk3.png" alt="Logo">
|
12 |
+
</p>
|
13 |
+
|
14 |
+
# EraX-WoW-Turbo: Whisper Large-v3 Turbo for Vietnamese and then some, Supercharged and Localized! 🚀
|
15 |
+
|
16 |
+
**(A promise fulfilled! MIT License - Absolutely, positively, totally free.)**
|
17 |
+
|
18 |
* **Provide referrence audio & its transcription:**
|
19 |
<audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/update_213000_ref.wav"></audio>
|
20 |
- Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều
|
|
|
24 |
|
25 |
<audio controls src="https://huggingface.co/erax-ai/EraX-Smile-Female-F5-V1.0/resolve/main/model/generated_non_ema.wav"></audio>
|
26 |
|
27 |
+
Please refer to our ([EraX Smile Github](https://github.com/EraX-JS-Company/EraX-Smile-F5TTS/tree/main)) for codes.
|
28 |
+
|
29 |
+
You can simple download this repo, clone our Github and then run
|
30 |
+
```python
|
31 |
+
import os
|
32 |
+
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
|
33 |
+
|
34 |
+
from vinorm import TTSnorm
|
35 |
+
from f5tts_wrapper import F5TTSWrapper
|
36 |
+
|
37 |
+
# Initialize the F5-TTS wrapper
|
38 |
+
tts = F5TTSWrapper(
|
39 |
+
vocoder_name="vocos",
|
40 |
+
# point to EraX model checkpoint downloaded from HuggingFace
|
41 |
+
ckpt_path="path to downloaded EraX checkpoint",
|
42 |
+
vocab_file="vocab.txt",
|
43 |
+
use_ema=False,
|
44 |
+
)
|
45 |
+
|
46 |
+
ref_text = "Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều"
|
47 |
+
ref_text = TTSnorm(ref_text)
|
48 |
+
|
49 |
+
# Path to reference audio and output directory
|
50 |
+
output_dir = "output"
|
51 |
+
os.makedirs(output_dir, exist_ok=True)
|
52 |
+
|
53 |
+
# Preprocess the reference audio just once
|
54 |
+
# You can provide a reference text, or leave it blank for auto-transcription
|
55 |
+
tts.preprocess_reference(
|
56 |
+
ref_audio_path=ref_audio_path,
|
57 |
+
ref_text=ref_text, # Leave empty for auto-transcription
|
58 |
+
clip_short=True # Clip long audio to ~12 seconds max
|
59 |
+
)
|
60 |
+
|
61 |
+
print(f"Reference audio duration: {tts.get_current_audio_length():.2f} seconds")
|
62 |
+
|
63 |
+
# Generate from
|
64 |
+
text = "Trong khi đó, tại một chung cư trên địa bàn P.Vĩnh Tuy (Q.Hoàng Mai), nhiều người sống trên tầng cao giật mình khi thấy rung lắc mạnh nên đã chạy xuống sảnh tầng 1. Cư dân tại đây cho biết, họ chưa bao giờ cảm thấy ảnh hưởng của động đất mạnh như hôm nay."
|
65 |
+
text_norm = TTSnorm(text)
|
66 |
+
|
67 |
+
# Can do mulriple text. Singe long text more than 12 seconds will be auto-splitted into chunk. Good for streaming though.
|
68 |
+
|
69 |
+
sentences = [
|
70 |
+
gen_text
|
71 |
+
]
|
72 |
+
|
73 |
+
for i, sentence in enumerate(sentences):
|
74 |
+
output_path = os.path.join(output_dir, f"generated_non_ema_{i+1}.wav")
|
75 |
+
|
76 |
+
sentence_normed = TTSnorm(sentence)
|
77 |
+
|
78 |
+
# Generate the audio
|
79 |
+
tts.generate(
|
80 |
+
text=sentence_normed,
|
81 |
+
output_path=output_path,
|
82 |
+
nfe_step=20, # Number of denoising steps (32)
|
83 |
+
cfg_strength=2.0, # Classifier-free guidance strength (2)
|
84 |
+
speed=1.0, # Speed of generated speech (1.0)
|
85 |
+
cross_fade_duration=0.15, # Cross-fade between chunks (0.15)
|
86 |
+
)
|
87 |
+
|
88 |
+
print(f"Generated: {output_path}")
|
89 |
+
```
|
90 |
+
|
91 |
+
|
92 |
+
The EraX Team is committed to continuously improving our models. Stay tuned for future updates and even more exciting developments!The EraX Team.
|
93 |
+
|
94 |
+
## License:
|
95 |
+
- **MIT** follows Whisper's license.
|
96 |
+
|
97 |
+
## Citation 📝
|
98 |
+
<!-- title={EraX-WoW-Tuebo-V1.0: Lắng nghe để Yêu thương.},
|
99 |
+
author={Nguyễn Anh Nguyên},
|
100 |
+
organization={EraX},
|
101 |
+
year={2025},
|
102 |
+
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.0}-->
|
103 |
+
|
104 |
+
If you find our project useful, we would appreciate it if you could star our repository and cite our work as follows:
|
105 |
+
```
|
106 |
+
@article{title={EraX-WoW-Turbo-V1.0: Lắng nghe để Yêu thương.},
|
107 |
+
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
|
108 |
+
organization={EraX},
|
109 |
+
year={2025},
|
110 |
+
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.0}
|
111 |
+
}
|
112 |
+
```
|