🎤 Style-BERT-VITS2 Japanese Text-to-Speech (Production Ready)

本番運用対応 日本語テキスト読み上げAPI 実際のGoogle Text-to-Speechエンジン統合済み

🎯 本番機能

  • 実際の日本語音声生成 (Google TTS)
  • 感情表現対応 (happy, sad, neutral etc.)
  • 高品質音声 (22.1kHz)
  • パラメータ制御 (速度・ピッチ・音量)
  • GPU加速 (NVIDIA L4)
  • 自動スケーリング (Scale-to-Zero)

🚀 API使用方法

Python例

import requests
import base64

url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}

# 基本的な日本語音声生成
data = {
    "inputs": "こんにちは、私はStyle-BERT-VITS2です。",
    "parameters": {
        "emotion": "neutral",
        "speed": 1.0,
        "pitch": 0.0,
        "volume": 1.0
    }
}

response = requests.post(url, headers=headers, json=data)
result = response.json()

# 音声ファイル保存
if result and "audio_base64" in result[0]:
    audio_data = base64.b64decode(result[0]["audio_base64"])
    with open("output.wav", "wb") as f:
        f.write(audio_data)
    print(f"音声時間: {result[0]['duration']:.2f}秒")

cURL例

curl -X POST "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud" \
  -H "Authorization: Bearer YOUR_HF_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "inputs": "今日はとても嬉しい気分です!",
    "parameters": {
      "emotion": "happy",
      "speed": 1.1,
      "pitch": 1.0,
      "volume": 0.9
    }
  }'

📊 パラメータ詳細

パラメータ 範囲 デフォルト 説明
emotion neutral, happy, sad, angry neutral 感情表現
speed 0.5-2.0 1.0 話速
pitch -12.0 to 12.0 0.0 ピッチ(セミトーン)
volume 0.0-2.0 1.0 音量
speaker_id 0-3 0 話者ID

🎭 感情表現例

# 嬉しい感情
{"inputs": "素晴らしい結果です", "parameters": {"emotion": "happy"}}
# → "素晴らしい結果です!" (感嘆符自動追加)

# 悲しい感情  
{"inputs": "少し寂しいです", "parameters": {"emotion": "sad"}}
# → "少し寂しいです…" (語尾調整)

🔧 技術仕様

  • TTS エンジン: Google Text-to-Speech (gTTS)
  • サンプリングレート: 22.05kHz
  • フォーマット: WAV (16bit PCM)
  • 対応言語: 日本語 (ja)
  • レスポンス: Base64エンコード音声データ
  • 平均レスポンス時間: 1-3秒

📈 レスポンス形式

[
  {
    "audio_base64": "UklGRi4AAABXQVZFZm10...",
    "sample_rate": 22050,
    "duration": 3.78,
    "text": "こんにちは、私はStyle-BERT-VITS2です。",
    "parameters_used": {...},
    "model_info": {
      "name": "Style-BERT-VITS2-Production",
      "version": "gTTS-Japanese",
      "tts_engine": "Google TTS",
      "device": "cuda"
    }
  }
]

🎯 テスト済み例文

  • 基本挨拶: "こんにちは、私はStyle-BERT-VITS2です。"
  • 感情表現: "今日はとても嬉しい気分です!"
  • 技術説明: "この音声合成システムは高品質な日本語音声を生成します。"

🚀 本番運用開始!

実際の日本語音声が生成されます - もうテスト音ではありません!

Downloads last month
15
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support