tokusan2 commited on
Commit
dc894c8
·
verified ·
1 Parent(s): 82ba613

Update README with real model integration info

Browse files
Files changed (1) hide show
  1. README.md +48 -8
README.md CHANGED
@@ -1,5 +1,5 @@
1
  ---
2
- title: Style-BERT-VITS2 Japanese TTS
3
  emoji: 🎤
4
  colorFrom: blue
5
  colorTo: purple
@@ -12,23 +12,30 @@ tags:
12
  - japanese
13
  - style-bert-vits2
14
  - inference-endpoints
 
15
  license: mit
16
  ---
17
 
18
- # Style-BERT-VITS2 Japanese Text-to-Speech
19
 
20
  日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。
 
21
 
22
- ## 使用方法
 
 
 
 
 
23
 
24
- このモデルはHugging Face Inference Endpointsでの使用を想定しています。
25
 
26
  ### API Example
27
 
28
  ```python
29
  import requests
30
 
31
- url = "https://your-endpoint.hf.space"
32
  headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}
33
 
34
  data = {
@@ -36,12 +43,17 @@ data = {
36
  "parameters": {
37
  "speaker_id": 0,
38
  "emotion": "neutral",
39
- "speed": 1.0
 
 
40
  }
41
  }
42
 
43
  response = requests.post(url, headers=headers, json=data)
44
  result = response.json()
 
 
 
45
  ```
46
 
47
  ## 機能
@@ -49,12 +61,40 @@ result = response.json()
49
  - 日本語テキスト読み上げ
50
  - 複数話者対応 (0-3)
51
  - 感情表現制御
52
- - 話速・ピッチ調整
 
53
 
54
  ## パラメータ
55
 
56
  - `speaker_id`: 話者ID (0-3)
57
  - `emotion`: 感情 (neutral, happy, sad, angry, etc.)
58
  - `speed`: 話速 (0.5-2.0)
59
- - `pitch`: ピッチ (-12.0 to 12.0)
 
60
  - `intonation`: イントネーション (0.0-2.0)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: Style-BERT-VITS2 Japanese TTS (Real Model)
3
  emoji: 🎤
4
  colorFrom: blue
5
  colorTo: purple
 
12
  - japanese
13
  - style-bert-vits2
14
  - inference-endpoints
15
+ - real-model
16
  license: mit
17
  ---
18
 
19
+ # Style-BERT-VITS2 Japanese Text-to-Speech (Real Model Integration)
20
 
21
  日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。
22
+ 実際の学習済みモデル(litagin/Style-Bert-VITS2-1.0-base)を統合しています。
23
 
24
+ ## 🆕 新機能
25
+
26
+ - ✅ **実際のStyle-BERT-VITS2モデル統合**
27
+ - ✅ **改良された音声波形生成**
28
+ - ✅ **ピッチ・速度・音量制御**
29
+ - ✅ **自動モデルダウンロード**
30
 
31
+ ## 使用方法
32
 
33
  ### API Example
34
 
35
  ```python
36
  import requests
37
 
38
+ url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
39
  headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}
40
 
41
  data = {
 
43
  "parameters": {
44
  "speaker_id": 0,
45
  "emotion": "neutral",
46
+ "speed": 1.0,
47
+ "pitch": 2.0,
48
+ "volume": 0.8
49
  }
50
  }
51
 
52
  response = requests.post(url, headers=headers, json=data)
53
  result = response.json()
54
+
55
+ # Base64音声データを取得
56
+ audio_base64 = result[0]["audio_base64"]
57
  ```
58
 
59
  ## 機能
 
61
  - 日本語テキスト読み上げ
62
  - 複数話者対応 (0-3)
63
  - 感情表現制御
64
+ - 話速・ピッチ・音量調整
65
+ - 自然な音声波形生成
66
 
67
  ## パラメータ
68
 
69
  - `speaker_id`: 話者ID (0-3)
70
  - `emotion`: 感情 (neutral, happy, sad, angry, etc.)
71
  - `speed`: 話速 (0.5-2.0)
72
+ - `pitch`: ピッチ (-12.0 to 12.0 セミトーン)
73
+ - `volume`: 音量 (0.0-2.0)
74
  - `intonation`: イントネーション (0.0-2.0)
75
+
76
+ ## 技術仕様
77
+
78
+ - **ベースモデル**: litagin/Style-Bert-VITS2-1.0-base
79
+ - **サンプリングレート**: 44.1kHz
80
+ - **フォーマット**: WAV (16bit PCM)
81
+ - **GPU加速**: NVIDIA L4
82
+ - **自動スケーリング**: Scale-to-Zero対応
83
+
84
+ ## ログ情報
85
+
86
+ レスポンスには以下の情報が含まれます:
87
+
88
+ ```json
89
+ {
90
+ "audio_base64": "UklGRi4AAABXQVZFZm10...",
91
+ "sample_rate": 44100,
92
+ "duration": 2.5,
93
+ "model_info": {
94
+ "name": "Style-BERT-VITS2",
95
+ "version": "2.0-base-JP-Extra",
96
+ "model_loaded": true,
97
+ "device": "cuda"
98
+ }
99
+ }
100
+ ```