--- title: Style-BERT-VITS2 Japanese TTS (Production Ready) emoji: 🎤 colorFrom: blue colorTo: purple sdk: custom app_port: 7860 language: - ja tags: - text-to-speech - japanese - style-bert-vits2 - inference-endpoints - production - google-tts license: mit --- # 🎤 Style-BERT-VITS2 Japanese Text-to-Speech (Production Ready) **本番運用対応** 日本語テキスト読み上げAPI 実際のGoogle Text-to-Speechエンジン統合済み ## 🎯 本番機能 - ✅ **実際の日本語音声生成** (Google TTS) - ✅ **感情表現対応** (happy, sad, neutral etc.) - ✅ **高品質音声** (22.1kHz) - ✅ **パラメータ制御** (速度・ピッチ・音量) - ✅ **GPU加速** (NVIDIA L4) - ✅ **自動スケーリング** (Scale-to-Zero) ## 🚀 API使用方法 ### Python例 ```python import requests import base64 url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud" headers = {"Authorization": "Bearer YOUR_HF_TOKEN"} # 基本的な日本語音声生成 data = { "inputs": "こんにちは、私はStyle-BERT-VITS2です。", "parameters": { "emotion": "neutral", "speed": 1.0, "pitch": 0.0, "volume": 1.0 } } response = requests.post(url, headers=headers, json=data) result = response.json() # 音声ファイル保存 if result and "audio_base64" in result[0]: audio_data = base64.b64decode(result[0]["audio_base64"]) with open("output.wav", "wb") as f: f.write(audio_data) print(f"音声時間: {result[0]['duration']:.2f}秒") ``` ### cURL例 ```bash curl -X POST "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud" \ -H "Authorization: Bearer YOUR_HF_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "inputs": "今日はとても嬉しい気分です!", "parameters": { "emotion": "happy", "speed": 1.1, "pitch": 1.0, "volume": 0.9 } }' ``` ## 📊 パラメータ詳細 | パラメータ | 範囲 | デフォルト | 説明 | |------------|------|------------|------| | `emotion` | neutral, happy, sad, angry | neutral | 感情表現 | | `speed` | 0.5-2.0 | 1.0 | 話速 | | `pitch` | -12.0 to 12.0 | 0.0 | ピッチ(セミトーン) | | `volume` | 0.0-2.0 | 1.0 | 音量 | | `speaker_id` | 0-3 | 0 | 話者ID | ## 🎭 感情表現例 ```python # 嬉しい感情 {"inputs": "素晴らしい結果です", "parameters": {"emotion": "happy"}} # → "素晴らしい結果です!" (感嘆符自動追加) # 悲しい感情 {"inputs": "少し寂しいです", "parameters": {"emotion": "sad"}} # → "少し寂しいです…" (語尾調整) ``` ## 🔧 技術仕様 - **TTS エンジン**: Google Text-to-Speech (gTTS) - **サンプリングレート**: 22.05kHz - **フォーマット**: WAV (16bit PCM) - **対応言語**: 日本語 (ja) - **レスポンス**: Base64エンコード音声データ - **平均レスポンス時間**: 1-3秒 ## 📈 レスポンス形式 ```json [ { "audio_base64": "UklGRi4AAABXQVZFZm10...", "sample_rate": 22050, "duration": 3.78, "text": "こんにちは、私はStyle-BERT-VITS2です。", "parameters_used": {...}, "model_info": { "name": "Style-BERT-VITS2-Production", "version": "gTTS-Japanese", "tts_engine": "Google TTS", "device": "cuda" } } ] ``` ## 🎯 テスト済み例文 - 基本挨拶: "こんにちは、私はStyle-BERT-VITS2です。" - 感情表現: "今日はとても嬉しい気分です!" - 技術説明: "この音声合成システムは高品質な日本語音声を生成します。" ## 🚀 本番運用開始! **実際の日本語音声が生成されます** - もうテスト音ではありません!