Update README with real model integration info
Browse files
README.md
CHANGED
@@ -1,5 +1,5 @@
|
|
1 |
---
|
2 |
-
title: Style-BERT-VITS2 Japanese TTS
|
3 |
emoji: 🎤
|
4 |
colorFrom: blue
|
5 |
colorTo: purple
|
@@ -12,23 +12,30 @@ tags:
|
|
12 |
- japanese
|
13 |
- style-bert-vits2
|
14 |
- inference-endpoints
|
|
|
15 |
license: mit
|
16 |
---
|
17 |
|
18 |
-
# Style-BERT-VITS2 Japanese Text-to-Speech
|
19 |
|
20 |
日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。
|
|
|
21 |
|
22 |
-
##
|
|
|
|
|
|
|
|
|
|
|
23 |
|
24 |
-
|
25 |
|
26 |
### API Example
|
27 |
|
28 |
```python
|
29 |
import requests
|
30 |
|
31 |
-
url = "https://
|
32 |
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}
|
33 |
|
34 |
data = {
|
@@ -36,12 +43,17 @@ data = {
|
|
36 |
"parameters": {
|
37 |
"speaker_id": 0,
|
38 |
"emotion": "neutral",
|
39 |
-
"speed": 1.0
|
|
|
|
|
40 |
}
|
41 |
}
|
42 |
|
43 |
response = requests.post(url, headers=headers, json=data)
|
44 |
result = response.json()
|
|
|
|
|
|
|
45 |
```
|
46 |
|
47 |
## 機能
|
@@ -49,12 +61,40 @@ result = response.json()
|
|
49 |
- 日本語テキスト読み上げ
|
50 |
- 複数話者対応 (0-3)
|
51 |
- 感情表現制御
|
52 |
-
-
|
|
|
53 |
|
54 |
## パラメータ
|
55 |
|
56 |
- `speaker_id`: 話者ID (0-3)
|
57 |
- `emotion`: 感情 (neutral, happy, sad, angry, etc.)
|
58 |
- `speed`: 話速 (0.5-2.0)
|
59 |
-
- `pitch`: ピッチ (-12.0 to 12.0)
|
|
|
60 |
- `intonation`: イントネーション (0.0-2.0)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
title: Style-BERT-VITS2 Japanese TTS (Real Model)
|
3 |
emoji: 🎤
|
4 |
colorFrom: blue
|
5 |
colorTo: purple
|
|
|
12 |
- japanese
|
13 |
- style-bert-vits2
|
14 |
- inference-endpoints
|
15 |
+
- real-model
|
16 |
license: mit
|
17 |
---
|
18 |
|
19 |
+
# Style-BERT-VITS2 Japanese Text-to-Speech (Real Model Integration)
|
20 |
|
21 |
日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。
|
22 |
+
実際の学習済みモデル(litagin/Style-Bert-VITS2-1.0-base)を統合しています。
|
23 |
|
24 |
+
## 🆕 新機能
|
25 |
+
|
26 |
+
- ✅ **実際のStyle-BERT-VITS2モデル統合**
|
27 |
+
- ✅ **改良された音声波形生成**
|
28 |
+
- ✅ **ピッチ・速度・音量制御**
|
29 |
+
- ✅ **自動モデルダウンロード**
|
30 |
|
31 |
+
## 使用方法
|
32 |
|
33 |
### API Example
|
34 |
|
35 |
```python
|
36 |
import requests
|
37 |
|
38 |
+
url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
|
39 |
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}
|
40 |
|
41 |
data = {
|
|
|
43 |
"parameters": {
|
44 |
"speaker_id": 0,
|
45 |
"emotion": "neutral",
|
46 |
+
"speed": 1.0,
|
47 |
+
"pitch": 2.0,
|
48 |
+
"volume": 0.8
|
49 |
}
|
50 |
}
|
51 |
|
52 |
response = requests.post(url, headers=headers, json=data)
|
53 |
result = response.json()
|
54 |
+
|
55 |
+
# Base64音声データを取得
|
56 |
+
audio_base64 = result[0]["audio_base64"]
|
57 |
```
|
58 |
|
59 |
## 機能
|
|
|
61 |
- 日本語テキスト読み上げ
|
62 |
- 複数話者対応 (0-3)
|
63 |
- 感情表現制御
|
64 |
+
- 話速・ピッチ・音量調整
|
65 |
+
- 自然な音声波形生成
|
66 |
|
67 |
## パラメータ
|
68 |
|
69 |
- `speaker_id`: 話者ID (0-3)
|
70 |
- `emotion`: 感情 (neutral, happy, sad, angry, etc.)
|
71 |
- `speed`: 話速 (0.5-2.0)
|
72 |
+
- `pitch`: ピッチ (-12.0 to 12.0 セミトーン)
|
73 |
+
- `volume`: 音量 (0.0-2.0)
|
74 |
- `intonation`: イントネーション (0.0-2.0)
|
75 |
+
|
76 |
+
## 技術仕様
|
77 |
+
|
78 |
+
- **ベースモデル**: litagin/Style-Bert-VITS2-1.0-base
|
79 |
+
- **サンプリングレート**: 44.1kHz
|
80 |
+
- **フォーマット**: WAV (16bit PCM)
|
81 |
+
- **GPU加速**: NVIDIA L4
|
82 |
+
- **自動スケーリング**: Scale-to-Zero対応
|
83 |
+
|
84 |
+
## ログ情報
|
85 |
+
|
86 |
+
レスポンスには以下の情報が含まれます:
|
87 |
+
|
88 |
+
```json
|
89 |
+
{
|
90 |
+
"audio_base64": "UklGRi4AAABXQVZFZm10...",
|
91 |
+
"sample_rate": 44100,
|
92 |
+
"duration": 2.5,
|
93 |
+
"model_info": {
|
94 |
+
"name": "Style-BERT-VITS2",
|
95 |
+
"version": "2.0-base-JP-Extra",
|
96 |
+
"model_loaded": true,
|
97 |
+
"device": "cuda"
|
98 |
+
}
|
99 |
+
}
|
100 |
+
```
|