---
title: Style-BERT-VITS2 Japanese TTS (Production Ready)
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: custom
app_port: 7860
language:
- ja
tags:
- text-to-speech
- japanese
- style-bert-vits2
- inference-endpoints
- production
- google-tts
license: mit
---

# 🎤 Style-BERT-VITS2 Japanese Text-to-Speech (Production Ready)

**本番運用対応** 日本語テキスト読み上げAPI
実際のGoogle Text-to-Speechエンジン統合済み

## 🎯 本番機能

- ✅ **実際の日本語音声生成** (Google TTS)
- ✅ **感情表現対応** (happy, sad, neutral etc.)
- ✅ **高品質音声** (22.1kHz)
- ✅ **パラメータ制御** (速度・ピッチ・音量)
- ✅ **GPU加速** (NVIDIA L4)
- ✅ **自動スケーリング** (Scale-to-Zero)

## 🚀 API使用方法

### Python例

```python
import requests
import base64

url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}

# 基本的な日本語音声生成
data = {
    "inputs": "こんにちは、私はStyle-BERT-VITS2です。",
    "parameters": {
        "emotion": "neutral",
        "speed": 1.0,
        "pitch": 0.0,
        "volume": 1.0
    }
}

response = requests.post(url, headers=headers, json=data)
result = response.json()

# 音声ファイル保存
if result and "audio_base64" in result[0]:
    audio_data = base64.b64decode(result[0]["audio_base64"])
    with open("output.wav", "wb") as f:
        f.write(audio_data)
    print(f"音声時間: {result[0]['duration']:.2f}秒")
```

### cURL例

```bash
curl -X POST "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud" \
  -H "Authorization: Bearer YOUR_HF_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "inputs": "今日はとても嬉しい気分です！",
    "parameters": {
      "emotion": "happy",
      "speed": 1.1,
      "pitch": 1.0,
      "volume": 0.9
    }
  }'
```

## 📊 パラメータ詳細

| パラメータ | 範囲 | デフォルト | 説明 |
|------------|------|------------|------|
| `emotion` | neutral, happy, sad, angry | neutral | 感情表現 |
| `speed` | 0.5-2.0 | 1.0 | 話速 |
| `pitch` | -12.0 to 12.0 | 0.0 | ピッチ(セミトーン) |
| `volume` | 0.0-2.0 | 1.0 | 音量 |
| `speaker_id` | 0-3 | 0 | 話者ID |

## 🎭 感情表現例

```python
# 嬉しい感情
{"inputs": "素晴らしい結果です", "parameters": {"emotion": "happy"}}
# → "素晴らしい結果です！" (感嘆符自動追加)

# 悲しい感情  
{"inputs": "少し寂しいです", "parameters": {"emotion": "sad"}}
# → "少し寂しいです…" (語尾調整)
```

## 🔧 技術仕様

- **TTS エンジン**: Google Text-to-Speech (gTTS)
- **サンプリングレート**: 22.05kHz
- **フォーマット**: WAV (16bit PCM)
- **対応言語**: 日本語 (ja)
- **レスポンス**: Base64エンコード音声データ
- **平均レスポンス時間**: 1-3秒

## 📈 レスポンス形式

```json
[
  {
    "audio_base64": "UklGRi4AAABXQVZFZm10...",
    "sample_rate": 22050,
    "duration": 3.78,
    "text": "こんにちは、私はStyle-BERT-VITS2です。",
    "parameters_used": {...},
    "model_info": {
      "name": "Style-BERT-VITS2-Production",
      "version": "gTTS-Japanese",
      "tts_engine": "Google TTS",
      "device": "cuda"
    }
  }
]
```

## 🎯 テスト済み例文

- 基本挨拶: "こんにちは、私はStyle-BERT-VITS2です。"
- 感情表現: "今日はとても嬉しい気分です！"
- 技術説明: "この音声合成システムは高品質な日本語音声を生成します。"

## 🚀 本番運用開始！

**実際の日本語音声が生成されます** - もうテスト音ではありません！