metadata
title: Style-BERT-VITS2 Japanese TTS (Real Model)
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: custom
app_port: 7860
language:
- ja
tags:
- text-to-speech
- japanese
- style-bert-vits2
- inference-endpoints
- real-model
license: mit
Style-BERT-VITS2 Japanese Text-to-Speech (Real Model Integration)
日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。 実際の学習済みモデル(litagin/Style-Bert-VITS2-1.0-base)を統合しています。
🆕 新機能
- ✅ 実際のStyle-BERT-VITS2モデル統合
- ✅ 改良された音声波形生成
- ✅ ピッチ・速度・音量制御
- ✅ 自動モデルダウンロード
使用方法
API Example
import requests
url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}
data = {
"inputs": "こんにちは、これはテストです。",
"parameters": {
"speaker_id": 0,
"emotion": "neutral",
"speed": 1.0,
"pitch": 2.0,
"volume": 0.8
}
}
response = requests.post(url, headers=headers, json=data)
result = response.json()
# Base64音声データを取得
audio_base64 = result[0]["audio_base64"]
機能
- 日本語テキスト読み上げ
- 複数話者対応 (0-3)
- 感情表現制御
- 話速・ピッチ・音量調整
- 自然な音声波形生成
パラメータ
speaker_id
: 話者ID (0-3)emotion
: 感情 (neutral, happy, sad, angry, etc.)speed
: 話速 (0.5-2.0)pitch
: ピッチ (-12.0 to 12.0 セミトーン)volume
: 音量 (0.0-2.0)intonation
: イントネーション (0.0-2.0)
技術仕様
- ベースモデル: litagin/Style-Bert-VITS2-1.0-base
- サンプリングレート: 44.1kHz
- フォーマット: WAV (16bit PCM)
- GPU加速: NVIDIA L4
- 自動スケーリング: Scale-to-Zero対応
ログ情報
レスポンスには以下の情報が含まれます:
{
"audio_base64": "UklGRi4AAABXQVZFZm10...",
"sample_rate": 44100,
"duration": 2.5,
"model_info": {
"name": "Style-BERT-VITS2",
"version": "2.0-base-JP-Extra",
"model_loaded": true,
"device": "cuda"
}
}